IA Equa e Interpretabile per lo Studio dell’Impatto delle Esposizioni Ambientali sulla Multimorbilità Infantile

This thesis addresses the growing issue of childhood multimorbidity, defined as the presence of two or more chronic health conditions in a child. Standard healthcare approaches, which typically focus on individual diseases, often struggle to manage such complex cases. To support early detection and better management, this study explores the use of fair and explainable Artificial Intelligence (AI) models, using exposome data from the Millennium Cohort Study (MCS), collected through family self-reported multiple-choice questionnaires on socioeconomic, environmental, and health-related factors. The analysis focuses on two main groups of conditions: asthma/allergies and mental or social difficulties, due to their frequent overlap and close relationship. Several machine learning algorithms are applied, XGBoost, Logistic Regression, Support Vector Machine, Random Forest, Multilayer Perceptron, and K-Nearest Neighbors, within multi-label classification frameworks, including Label Powerset, Chain Classifier, and Binary Relevance. To improve performance and address class imbalance, the ADASYN (Adaptive Synthetic Sampling) technique is used, along with Elastic Net regularization for selecting relevant features. Results indicate that the Chain Classifier method, particularly when combined with XGBoost, achieves the highest and most consistent predictive performance across both common and less frequent conditions. Model interpretability is ensured through SHAP (SHapley Additive exPlanations), which highlights key predictors such as income level, environmental exposures (pollution and litter), prenatal factors (alcohol use, smoking during pregnancy, delivery type), and early behavioral signs (such as tantrums or difficulty concentrating). These findings are in line with previous studies, supporting the model's reliability. Fairness is also assessed across sensitive subgroups based on sex, ethnicity (White vs. non-White), and income level (above or below the third quartile, 31.000 £). Fairness metrics, including False Negative Rate, False Positive Rate, Selection Rate, and Precision, are used to evaluate equity, with acceptable thresholds defined by a maximum difference of ± 0.1 and a ratio between 0.875 and 1.125. In some cases, fairness is improved through a reweighting technique that adjusts the influence of underrepresented groups in the training process. Overall, the findings highlight the potential of explainable AI to support early identification of childhood multimorbidity and to guide more personalized and equitable health interventions. Although the study is limited by the use of self-reported and cross-sectional data, it provides a foundation for future work using long-term and more diverse sources of information.

Questa tesi affronta il problema crescente della multimorbidità infantile, definita come la presenza di due o più condizioni croniche nello stesso bambino. I sistemi sanitari tradizionali, spesso orientati alla gestione di singole malattie, risultano inadeguati nei casi complessi. Per supportare un’identificazione precoce e una gestione più efficace, lo studio propone l’utilizzo di modelli di Intelligenza Artificiale (IA) equi e interpretabili, basati su dati ambientali e sociali (esposoma) del Millennium Cohort Study (MCS), raccolti tramite questionari a scelta multipla auto-compilati dalle famiglie. L’analisi si concentra su due principali categorie di multimorbidità: asma/allergie e problemi mentali/sociali, per la loro frequente co-occorrenza e interconnessione. Sono stati applicati diversi algoritmi di Machine Learning (ML), tra cui XGBoost, Regressione Logistica, Support Vector Machine, Random Forest, Multilayer Perceptron e K-Nearest Neighbors, utilizzando approcci di classificazione multi-etichetta come Label Powerset, Chain Classifiers e Binary Relevance. Per gestire lo squilibrio tra classi e migliorare le prestazioni, è stata adottata la tecnica ADASYN e la selezione delle variabili è avvenuta tramite regolarizzazione Elastic Net. I risultati mostrano che l’approccio Chain Classifier, in particolare con XGBoost, fornisce le migliori prestazioni predittive in modo stabile, sia per condizioni comuni che rare. L’interpretabilità è garantita dall’uso di SHAP (SHapley Additive exPlanations), che evidenzia predittori chiave come reddito, esposizione ambientale (inquinamento, rifiuti), fattori prenatali (alcol, fumo in gravidanza, tipo di parto) e indicatori comportamentali precoci (capricci, difficoltà di concentrazione), in linea con quanto riportato in letteratura. È stata inoltre condotta un’analisi dell’equità tra sottogruppi per sesso, etnia (bianchi vs. non-bianchi) e reddito (sopra/sotto il terzo quartile, 31.000£), utilizzando metriche come falsi negativi/positivi, tasso di selezione e precisione. L’equità è definita da una differenza non superiore a ± 0.1 o un rapporto compreso tra 0.875 e 1.125. In alcuni casi, l’equità è stata migliorata tramite ripesatura dei gruppi meno rappresentati durante l’addestramento. Nel complesso, i risultati evidenziano il potenziale dell’IA interpretabile per l’identificazione precoce della multimorbidità infantile e lo sviluppo di strategie di intervento più personalizzate ed eque. Sebbene lo studio presenti alcune limitazioni, come l’uso di dati auto-riferiti e trasversali, esso costituisce una base solida per futuri lavori basati su dati longitudinali e fonti più diversificate.