AI-HOPE Lung cancer: building a predictive tool for metastatic lung cancer

Ogliari, Francesca Rita

Il carcinoma polmonare non a piccole cellule (NSCLC) metastatico è spesso una malattia eterogenea con sopravvivenze molto variabili, per cui c’è grande necessità di strumenti prognostici e predittivi affidabili, soprattutto nel contesto di real-world. Lo studio AI-HOPE è uno studio ambispetttico e multicentrico, con lo scopo di raccogliere dati di pratica clinica e sviluppare modelli di machine learning (ML) in grado di predire la sopravvivenza dei pazienti con NSCLC metastatico trattati con immunoterapia di prima linea (con o senza chemioterapia). Nello studio, i dati vengono raccolti da diverse fonti intra-ospedaliere, come case-report forms elettroniche, sistemi di laboratorio e archivi di imaging. Lo studio si basa su una piattaforma sicura e conforme ai requisiti di privacy (S-RACE platform) per la condivisione e l’analisi dei dati. In una prima coorte interna, i modelli Auto-ML hanno raggiunto buone performance nella predizione della progressione precoce (AUC fino a 0.82), con biomarcatori di laboratorio (percentuale di neutrofili, rapporto neutrofili/linfociti, piastrine) ed espressione di PD-L1 come predittori più forti, seguiti da fattori clinici (performance status, uso di steroidi). Al contrario, i modelli che includono features di radiomica non hanno migliorato i risultati dei modelli di classificazione binaria, richiedendo inoltre una massiccia supervisione manuale. Approcci unsupervised (come il clustering basato esclusivamente su radiomica) sembrano utili per identificare gruppi di tumori con caratteristiche biologiche simili, supportando una loro possibile utilità in studi esplorativi futuri. Infine, diverse librerie di modelli time-to-event sono state testate sulla coorte multicentrica preliminare di 498 pazienti. I modelli RandomForest SurvivalAnalysis e XGBSE hanno superato i modelli transformer in termini di C-index quando applicati ai soli dati tabulari, ma tutti gli algoritmi si sono dimostrati sufficientemente robusti per ulteriori esperimenti con dataset più ampi e fonte dati eterogenee. Questi risultati confermano la fattibilità di sviluppare modelli di ML riproducibili in un contesto ospedaliero di real-world. Una raccolta dati più ampia e prospettica è in corso per ulteriore sviluppo e validazione di modelli multimodali time-to-event.

Metastatic non-small-cell lung cancer (NSCLC) represents a heterogeneous disease with markedly variable outcomes, and reliable prognostic and predictive tools are urgently needed, particularly in the real-world setting. The AI-HOPE study was designed as an ambispective, multicentre project to collect real-world data and develop machine-learning models capable of predicting clinical endpoints in patients with metastatic NSCLC receiving first-line immunotherapy with or without chemotherapy. In this study, we acquired real-world data from multiple in-hospital sources, including structured electronic case report forms, laboratory systems, and imaging repositories. The study relied on a secure and privacy-compliant platform (S-RACE) for data sharing and analysis, which enabled automated data ingestion and ML model training. In the single-centre cohort, Auto-ML supervised models achieved robust performance for early-progression prediction (AUC up to 0.82), with laboratory biomarkers (neutrophil percentage, neutrophil/lymphocyte ratio, platelets) and PD-L1 expression emerging as the strongest predictors, followed by clinical factors (performance status, steroid use). Conversely, radiomics-augmented models did not provide added predictive value in prognostic models, despite requiring substantial manual oversight. Unsupervised clustering based solely on radiomic features revealed biologically plausible patient groups, suggesting potential complementary value for future exploratory studies. Moreover, different libraries of time-to-event models were tested on the preliminary multicentre cohort of 498 patients. RandomForest SurvivalAnalysis and XGBSE-based models outperformed transformer-based models in terms of C-index when built on tabular data only, but all the algorithms proved robust enough for further development with larger sample size and multimodal views. These findings confirm the feasibility of developing reproducible ML models in a real-world hospital environment, and highlight the challenges of imaging-based biomarkers. Larger and prospective data collection is ongoing for future validation of multimodal time-to-event models.

AI-HOPE Lung cancer: building a predictive tool for metastatic lung cancer / Francesca Rita Ogliari , 2026 Feb 16. 38. ciclo, Anno Accademico 2024/2025.