The recent development of intelligent systems makes primary care data interesting for the application of data mining and machine learning algorithms for diagnosis or prediction of diseases. However, there is a need for developing a synthetic dataset that would complement such rich real-world data for various reasons. In particular, the advantage in terms of ease of access thanks to the lack of patient privacy protection issues increases their potentiality. Further, in the context of primary care data, synthetic data can be generated on-the-fly simulating critical or pathological situations, useful for testing machine learning algorithms. Despite all the advantages outlined above, the synthetic primary care data generation approach has to ensure the preservation of the ground truth in terms of fundamental aggregated statistics and correct underlying biological relationships. This work proposes an approach to establish the existence of possible unmeasured common causes in the underlying causal structure regarding a particular set of observed variables. Indeed, their unrecognized presence can mislead a model. The aim is to build an accurate simulator, in such a way to generate synthetic data more closely resembling the characteristics of real data also in the presence of latent variables. A framework is presented to detect latent variables and to evaluate synthetic data generated by a model which includes them. To demonstrate the application of this framework, we include a proof-of-concept case study regarding cardiovascular diseases risk factors.
Analisi della presenza di variabili latenti nell'apprendimento di un modello causale utilizzato come simulatore di dati clinici. Il recente sviluppo di sistemi intelligenti ha reso i dati clinici allettanti per quanto riguarda l’applicazione di algoritmi di data mining e di machine learning finalizzati, per esempio, alla diagnosi e allo studio del decorso di malattie. Tuttavia, vi è il bisogno di dati sintetici che integrino tali dati per diverse ragioni. In primo luogo, i dati sintetici possono essere utilizzati liberamente grazie alla mancanza di problemi legati alla protezione della privacy del paziente. Inoltre, soprattutto nel contesto riguardante i dati clinici, i dati sintetici possono essere generati in grande quantità e simulando situazioni critiche o patologiche, molto utili per testare le performance di algoritmi di machine learning. Nonostante i benefici appena elencati, il processo di generazione di dati clinici deve assicurare di preservare la veridicità dei dati reali, in termini di distribuzione dei dati e di corrette relazioni biologiche tra le varie entità considerate. Il lavoro propone un approccio che consenta di stabilire l’esistenza di possibili variabili latenti nella struttura causale di un particolare set di variabili osservate. Se non correttamente identificate, la loro presenza potrebbe infatti ’confondere’ il modello. L’obiettivo è dunque progettare un simulatore molto accurato, in modo tale da generare dati che rappresentino quelli reali nel modo più veritiero possibile anche in presenza di variabili latenti. È quindi presentato un framework per rilevare tali variabili e valutare i dati sintetici generati a partire dal modello costruito. Come applicazione di tale framework, si include un caso di studio riguardante fattori di rischio di malattie cardiovascolari.
Investigating the presence of hidden confoundes in a causal model to learn a clinical data simulator
ROTALINTI, YLENIA
2018/2019
Abstract
The recent development of intelligent systems makes primary care data interesting for the application of data mining and machine learning algorithms for diagnosis or prediction of diseases. However, there is a need for developing a synthetic dataset that would complement such rich real-world data for various reasons. In particular, the advantage in terms of ease of access thanks to the lack of patient privacy protection issues increases their potentiality. Further, in the context of primary care data, synthetic data can be generated on-the-fly simulating critical or pathological situations, useful for testing machine learning algorithms. Despite all the advantages outlined above, the synthetic primary care data generation approach has to ensure the preservation of the ground truth in terms of fundamental aggregated statistics and correct underlying biological relationships. This work proposes an approach to establish the existence of possible unmeasured common causes in the underlying causal structure regarding a particular set of observed variables. Indeed, their unrecognized presence can mislead a model. The aim is to build an accurate simulator, in such a way to generate synthetic data more closely resembling the characteristics of real data also in the presence of latent variables. A framework is presented to detect latent variables and to evaluate synthetic data generated by a model which includes them. To demonstrate the application of this framework, we include a proof-of-concept case study regarding cardiovascular diseases risk factors.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/24388