Leveraging real-world data with machine learning to disentangle the complexity of multimorbid internal medicine patients

Montagna, Marco

L’applicazione del machine learning ai dati sanitari di mondo reale sta emergendo come un approccio complementare agli studi clinici per permettere di prendere decisioni basate sui dati nella gestione dei pazienti complessi gestiti nelle medicine interne. Per realizzare a pieno questo potenziale restano aperte sfide significative, tra cui limitazioni nella disponibilità e qualità dei dati e l’assenza di protocolli standardizzati per lo sviluppo dei modelli. In questa tesi, esploriamo come costruire una filiera per sfruttare i dati di mondo reale a scopo predittivo. In particolare, ci focalizziamo sul controllo di malattia nel diabete e sugli esiti di ricovero in medicina generale. La nostra prima contribuzione è lo sviluppo di una piattaforma istituzionale per la raccolta, integrazione e analisi di dati di mondo reale che rende poi possibile l’implementazione dei modelli nella pratica clinica. Questa piattaforma multilivello e modulare rispetta i più recenti regolamenti sulla protezione dei dati, aderisce agli standard di interoperabilità e alle ontologie mediche, e facilita la validazione prospettica e l’adozione dei modelli attraverso una interfaccia utente facile da usare. Successivamente mostriamo la fattibilità dell’estrazione di dati di pazienti con diabete di tipo 2 dalla cartella medica elettronica e il loro uso per allenare modelli di machine learning per la predizione di un miglioramento dell’emoglobina glicata a tre anni dal basale. In questo contesto, procediamo ad una valutazione sistematica di come diverse strategie di processamento dei dati influenzino la performance dei modelli, e mostriamo come l’interpretabilità dei modelli possa favorire il confronto clinico e far emergere dai nostri dataset conoscenze nascoste. Dimostriamo inoltre una robusta generalizzabilità di questi modelli in un dataset esterno. Infine, studiamo come generare un registro di dati di mondo reale di alta qualità su pazienti gestiti in reparti di medicina generale per una loro migliore fenotipizzazione al fine di adottare un approccio multidimensionale alla loro complessità. Proponiamo poi l’adozione di un framework basato sulla fragilità per migliorare la predizione di rischio di esiti sfavorevoli dell’ospedalizzazione. Impieghiamo da ultimo una pipeline di valutazione seguita dall’interpretazione dei modelli per fornire intuizioni cliniche. Questa tesi avanza l’integrazione non ancora raggiunta tra machine learning e dati di mondo reale in medicina interna. La nostra ricerca migliora la comprensione delle filiere di analisi ottimali e dimostra il potenziale che hanno i dati clinici generati quotidianamente nel produrre conoscenze significative e utilizzabili.

The application of machine learning to healthcare real-world data is emerging as a complementary approach to clinical trials for enabling data-driven decision-making in the evolving population of complex patients managed in the internal medicine setting. To fully realise this potential, significant challenges remain, including data availability and quality limitations and the absence of standardized protocols for model development. In this thesis, we explore how to build an end-to-end machine learning pipeline for real-world data and leverage it for predictive tasks. Specifically, we focus on disease control in diabetes and hospitalisation outcomes in general medicine wards. Our first contribution is the development of an institutional platform for on-premises real-world data collection, integration and analysis, ultimately enabling model deployment in clinical practice. This multilayer modular platform is compliant with the most recent data protection regulations, adheres to interoperability standards and medical ontologies, and facilitates the prospective validation and adoption of models through user-friendly interfaces. We then show the feasibility of extracting data of type 2 diabetes mellitus patients stored in electronic health records and using them to train machine learning models for the prediction of improved glycated haemoglobin at three years from baseline. In this context, we systematically evaluate how different data preprocessing strategies affect model performance, and we show how model interpretation can foster clinical discussion and unveil latent insights from our datasets. We additionally demonstrate robust generalisability of these models on an external dataset. Finally, we investigate how to generate a high-quality real-world data registry of patients managed in general medicine wards to allow improved phenotyping for a multidimensional approach to their complexity. We propose the adoption of the frailty framework to improve the risk prediction of a composite negative outcome of hospitalisation. We employ a model benchmarking pipeline followed by model interpretation to yield clinically meaningful insights. This thesis advances the currently unmet integration of machine learning with real-world data in internal medicine. Our research enhances the understanding of optimal analytical pipelines and demonstrates the potential of routinely generated clinical data to produce meaningful and actionable insights.

Leveraging real-world data with machine learning to disentangle the complexity of multimorbid internal medicine patients / Marco Montagna , 2026 Apr 27. 38. ciclo, Anno Accademico 2024/2025.