The research is a collaborative effort between the Laboratory of Biomedical Informatics at the University of Pavia, the IRCCS “Fondazione S. Maugeri” Hospital of Pavia and the Laboratory of Bioinformatics of the Ljubljana University. The case of study concerns the hereditary Long QT Syndrome (LQTS), a genetic channelopathy with variable penetrance and expressivity, clinically recognized by abnormal QT interval prolongation on the electrocardiogram (ECG) and associated with increased risk of polymorphic ventricular tachycardia, syncope and sudden cardiac death (SCD). The estimated prevalence of the disease varies between 1:2000 and 1:5000. To date, more than 600 mutations have been identified in 13 LQTS genes. In particular, LQT1, LQT2 and LQT3 genotypes comprise more than 95% of the patients with LQTS genotype-positive and about 75% of all patients with the syndrome, while LQTS types 4-13 are very rare. The primary goal of this activity is to find, through Data Mining methods, a model able to predict adverse cardiac events over time, using available information on a sample of symptomatic LQTS patients, integrating both clinical, genetic and temporal data. For this purpose, Maugeri Foundation provided a set of data belonging to 177 symptomatic patients, all characterized by repeated measurements of QTc (QTc interval adjusted for heart rate). Thanks to a pre-processing of the original data, a new dataset was produced, suitable for a Machine Learning approach and consisting of all time intervals between two consecutive QTc measurements for each patient, including information about the previous time period, i.e. QTc trend (computed as either continuous or discrete variable), the start of any possible treatment, cardiac events in the past medical history and other kinds of data. After that, the learning problem was set in order to test different combinations of covariates and to understand which was the role of the considered variables with particular focus on the QTc trend. For the following phase two methods were used, keeping in mind the peculiarity of the concerned data, characterized by repeated measures over time for each patient. At first, it was used a Logistic Regression model, for which it was built a validation procedure suitable to handle the data structure. Later, a different modeling approach was considered, able to take into account the inter-individual variability by learning the parameter of a Logistic Regression with a Hierarchical Bayesian Model. Model evaluation was made in terms of classification accuracy through the mean AUC score (Area Under the Curve) and observing the regression coefficients of the correspondent input variables for each of the tested models, looking for a valid clinical interpretation. Overall, estimates of accuracy are of potential clinical interest, and QTc has been found to be a variable with a noteworthy predictive role. The Bayesian Model tested in the last phase of work implements an MCMC (Markov Chain Monte Carlo) algorithm and is able to properly manage data from different patients collected over time, for this reason it is well suited to the following case study. This approach allowed obtaining patterns with both population and individual parameters which, as a whole, have led to interesting results. On the basis of that, it was finally designed a process for the usage of the model in the clinical practice.

Modelli di Data Mining per la previsione di eventi cardiaci avversi in pazienti affetti da Sindrome del QT lungo. L’attività svolta nasce dalla collaborazione tra il Laboratorio di Informatica Biomedica dell’Università di Pavia, la Fondazione Salvatore Maugeri di Pavia e il Laboratorio di Bioinformatica dell’Università di Ljubljana. Il caso di studio riguarda la Sindrome del QT lungo ereditaria (LQTS), una canalopatia genetica con penetranza ed espressività variabili, riconosciuta clinicamente da un anormale prolungamento dell’intervallo QT dell’elettrocardiogramma (ECG) ed associata ad un aumento del rischio di tachicardia ventricolare polimorfa, sincope e morte cardiaca improvvisa (SCD). La prevalenza stimata per questa patologia varia, a seconda dei diversi studi, da 1:2000 a 1:5000. Ad oggi, più di 600 mutazioni sono state identificate in 13 geni. In particolare, i genotipi LQT1, LQT2, LQT3 comprendono oltre il 95% dei pazienti LQTS genotipo-positivi e circa il 75% di tutti i pazienti con la sindrome, mentre i tipi di LQTS 4-13 sono molto rari. L’obiettivo primario della ricerca consiste nel trovare, attraverso metodi di Data Mining, un modello in grado di predire gli eventi cardiaci avversi nel tempo, utilizzando informazioni disponibili su un campione di pazienti sintomatici di LQTS, integrando dati sia di tipo clinico, che genetico e temporale. A tal fine, la Fondazione Maugeri ha fornito un set di dati appartenenti a 177 pazienti, tutti caratterizzati da misurazioni ripetute di QTc (intervallo QT corretto per la frequenza cardiaca) e sintomatici. Grazie al pre-processing dei dati originali è stato prodotto un dataset adatto ad un approccio di Machine Learning, composto da tutti gli intervalli temporali tra due misurazioni di QTc consecutive per ciascun paziente, riportando informazioni riguardanti l’intervallo precedente come il trend di QTc (rilevato in maniera sia continua che discreta), eventuali terapie iniziate, eventi cardiaci passati nella storia clinica e dati di altro genere. Successivamente, è stato impostato un problema di apprendimento per testare diverse combinazioni di covariate, al fine di capire quale fosse il ruolo svolto dalle variabili considerate, e dal trend di QTc in particolare. Per la seguente fase sono state utilizzate principalmente due metodologie, tenendo conto della particolarità dei dati in esame, caratterizzati da misure ripetute nel tempo per ogni paziente. Inizialmente è stato utilizzato un modello di Regressione Logistica, per cui è stata costruita una procedura di validazione idonea alla struttura dei dati. In seguito, è stata scelta una modellizzazione che tenesse conto della variabilità inter-individuale mediante una Regressione Logistica, con stima dei parametri effettuata tramite un Modello Bayesiano Gerarchico. La valutazione dei modelli è stata fatta in termini di accuratezza di classificazione attraverso il valore di AUC (Area Under the Curve) medio e osservando i coefficienti di regressione delle variabili in input di ogni modello, cercando una valida interpretazione clinica. Nel complesso, le stime di accuratezza sono di potenziale interesse clinico, ed è stata rilevata una significativa importanza del ruolo del QTc. Il Modello Bayesiano testato nell’ultima fase di lavoro implementa un algoritmo MCMC (Markov Chain Monte Carlo) ed è in grado di gestire adeguatamente dati provenienti da diversi pazienti e che vengono raccolti nel tempo, per questo motivo ben si presta al seguente caso di studio. L’approccio seguito ha permesso di ottenere modelli con parametri di popolazione e parametri individuali, che hanno portato nell’insieme a risultati interessanti. Sulla base di ciò è stato, infine, ideato un processo di utilizzo del modello nella pratica clinica.

Data Mining models for predicting adverse cardiac events in Long QT Syndrome patients.

CIGOGNINI, MONICA
2014/2015

Abstract

The research is a collaborative effort between the Laboratory of Biomedical Informatics at the University of Pavia, the IRCCS “Fondazione S. Maugeri” Hospital of Pavia and the Laboratory of Bioinformatics of the Ljubljana University. The case of study concerns the hereditary Long QT Syndrome (LQTS), a genetic channelopathy with variable penetrance and expressivity, clinically recognized by abnormal QT interval prolongation on the electrocardiogram (ECG) and associated with increased risk of polymorphic ventricular tachycardia, syncope and sudden cardiac death (SCD). The estimated prevalence of the disease varies between 1:2000 and 1:5000. To date, more than 600 mutations have been identified in 13 LQTS genes. In particular, LQT1, LQT2 and LQT3 genotypes comprise more than 95% of the patients with LQTS genotype-positive and about 75% of all patients with the syndrome, while LQTS types 4-13 are very rare. The primary goal of this activity is to find, through Data Mining methods, a model able to predict adverse cardiac events over time, using available information on a sample of symptomatic LQTS patients, integrating both clinical, genetic and temporal data. For this purpose, Maugeri Foundation provided a set of data belonging to 177 symptomatic patients, all characterized by repeated measurements of QTc (QTc interval adjusted for heart rate). Thanks to a pre-processing of the original data, a new dataset was produced, suitable for a Machine Learning approach and consisting of all time intervals between two consecutive QTc measurements for each patient, including information about the previous time period, i.e. QTc trend (computed as either continuous or discrete variable), the start of any possible treatment, cardiac events in the past medical history and other kinds of data. After that, the learning problem was set in order to test different combinations of covariates and to understand which was the role of the considered variables with particular focus on the QTc trend. For the following phase two methods were used, keeping in mind the peculiarity of the concerned data, characterized by repeated measures over time for each patient. At first, it was used a Logistic Regression model, for which it was built a validation procedure suitable to handle the data structure. Later, a different modeling approach was considered, able to take into account the inter-individual variability by learning the parameter of a Logistic Regression with a Hierarchical Bayesian Model. Model evaluation was made in terms of classification accuracy through the mean AUC score (Area Under the Curve) and observing the regression coefficients of the correspondent input variables for each of the tested models, looking for a valid clinical interpretation. Overall, estimates of accuracy are of potential clinical interest, and QTc has been found to be a variable with a noteworthy predictive role. The Bayesian Model tested in the last phase of work implements an MCMC (Markov Chain Monte Carlo) algorithm and is able to properly manage data from different patients collected over time, for this reason it is well suited to the following case study. This approach allowed obtaining patterns with both population and individual parameters which, as a whole, have led to interesting results. On the basis of that, it was finally designed a process for the usage of the model in the clinical practice.
2014
Data Mining models for predicting adverse cardiac events in Long QT Syndrome patients.
Modelli di Data Mining per la previsione di eventi cardiaci avversi in pazienti affetti da Sindrome del QT lungo. L’attività svolta nasce dalla collaborazione tra il Laboratorio di Informatica Biomedica dell’Università di Pavia, la Fondazione Salvatore Maugeri di Pavia e il Laboratorio di Bioinformatica dell’Università di Ljubljana. Il caso di studio riguarda la Sindrome del QT lungo ereditaria (LQTS), una canalopatia genetica con penetranza ed espressività variabili, riconosciuta clinicamente da un anormale prolungamento dell’intervallo QT dell’elettrocardiogramma (ECG) ed associata ad un aumento del rischio di tachicardia ventricolare polimorfa, sincope e morte cardiaca improvvisa (SCD). La prevalenza stimata per questa patologia varia, a seconda dei diversi studi, da 1:2000 a 1:5000. Ad oggi, più di 600 mutazioni sono state identificate in 13 geni. In particolare, i genotipi LQT1, LQT2, LQT3 comprendono oltre il 95% dei pazienti LQTS genotipo-positivi e circa il 75% di tutti i pazienti con la sindrome, mentre i tipi di LQTS 4-13 sono molto rari. L’obiettivo primario della ricerca consiste nel trovare, attraverso metodi di Data Mining, un modello in grado di predire gli eventi cardiaci avversi nel tempo, utilizzando informazioni disponibili su un campione di pazienti sintomatici di LQTS, integrando dati sia di tipo clinico, che genetico e temporale. A tal fine, la Fondazione Maugeri ha fornito un set di dati appartenenti a 177 pazienti, tutti caratterizzati da misurazioni ripetute di QTc (intervallo QT corretto per la frequenza cardiaca) e sintomatici. Grazie al pre-processing dei dati originali è stato prodotto un dataset adatto ad un approccio di Machine Learning, composto da tutti gli intervalli temporali tra due misurazioni di QTc consecutive per ciascun paziente, riportando informazioni riguardanti l’intervallo precedente come il trend di QTc (rilevato in maniera sia continua che discreta), eventuali terapie iniziate, eventi cardiaci passati nella storia clinica e dati di altro genere. Successivamente, è stato impostato un problema di apprendimento per testare diverse combinazioni di covariate, al fine di capire quale fosse il ruolo svolto dalle variabili considerate, e dal trend di QTc in particolare. Per la seguente fase sono state utilizzate principalmente due metodologie, tenendo conto della particolarità dei dati in esame, caratterizzati da misure ripetute nel tempo per ogni paziente. Inizialmente è stato utilizzato un modello di Regressione Logistica, per cui è stata costruita una procedura di validazione idonea alla struttura dei dati. In seguito, è stata scelta una modellizzazione che tenesse conto della variabilità inter-individuale mediante una Regressione Logistica, con stima dei parametri effettuata tramite un Modello Bayesiano Gerarchico. La valutazione dei modelli è stata fatta in termini di accuratezza di classificazione attraverso il valore di AUC (Area Under the Curve) medio e osservando i coefficienti di regressione delle variabili in input di ogni modello, cercando una valida interpretazione clinica. Nel complesso, le stime di accuratezza sono di potenziale interesse clinico, ed è stata rilevata una significativa importanza del ruolo del QTc. Il Modello Bayesiano testato nell’ultima fase di lavoro implementa un algoritmo MCMC (Markov Chain Monte Carlo) ed è in grado di gestire adeguatamente dati provenienti da diversi pazienti e che vengono raccolti nel tempo, per questo motivo ben si presta al seguente caso di studio. L’approccio seguito ha permesso di ottenere modelli con parametri di popolazione e parametri individuali, che hanno portato nell’insieme a risultati interessanti. Sulla base di ciò è stato, infine, ideato un processo di utilizzo del modello nella pratica clinica.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/25790