This thesis work aims to study the problem of identifying atrial fibrillation; different Machine Learning models are trained for recognizing the pathology through the analysis of the PTB-XL database, discriminating its data between three macro classes. Below is a brief summary of the most relevant contents of each chapter. The chapter 1 presents the heart, the main organ of this study, providing information of its anatomical and physiological nature. Besides, are shown the main functions of cardiac tissue, describing its shape and composition, in order to introduce its essential biology, with particular attention to the electrical processes produced internally by the conduction system. Furthermore, it is illustrated the electrocardiogram, a graphic reproduction of heart’s activity, distinguishing the different waves that compose it and the positions of the electrodes: instruments for detecting electrical currents, determining the 12-lead ecg at the base of the study. Finally, the chapter deals with atrial fibrillation, defining it from a diagnostic and etiological point of view, thus researching the causes and mechanisms which it operates with, and epidemiological, thus observing who and how often is affected by. The chapter 2 introduces Machine Learning, a computer discipline that constitutes the analysis tool used in this work, through the presentation of different models. In order to characterize ML’s structure, in this part of work is defined the classification problem in general terms, in order to provide a common notation for all the algorithms treated later. Then, it is described evaluation metrics from a mathematical point of view, which estimate the goodness of a model in terms of classification and the processes of data preprocessing for their optimization. In the end of the chapter are presented the three models exploited for data training, known in the literature as k-Nearest Neighbors, Random Forest and Multilayer Perceptron. The chapter 3 illustrates the results produced by the various artificial simulations, training the models mentioned above. The main purpose of this thesis work is to evaluate the learning degree of each algorithm in the identification of the pathology, in terms of the previously introduced evaluation metrics, determining the most efficient one. In this part are carried out two types of simulations: one that consider only the data relating to the electrocardiographic signals, applying the previously described normalizations and the other that also takes into account the metadata. At last, a comparison of different results of the simulations, concluding with reflections on the efficiency of the latter.

Questo lavoro di tesi si pone l'obiettivo di studiare il problema dell'identificazione della fibrillazione atriale; vengono addestrati diversi modelli di Machine Learning che riconoscono la patologia attraverso l'analisi del database PTB-XL, discriminando i dati in esso contenuti tra tre macro classi. Di seguito viene riportato un breve riassunto dei contenuti più rilevanti di ciascun capitolo. Nel Capitolo 1 sarà presentato il cuore, l'organo protagonista di questo studio, fornendo informazioni di carattere anatomico e fisiologico. Saranno descritte le principali funzioni del tessuto cardiaco, descrivendone forma e composizione, al fine di introdurre la sua biologia essenziale, con particolare attenzione ai processi elettrici prodotti internamente dal sistema di conduzione. Verranno illustrati l'elettrocardiogramma, riproduzione grafica di tale attività, distinguendo le diverse onde che lo compongono e le posizioni degli elettrodi, strumenti per la rilevazione delle correnti elettriche, che determinano le 12 derivazioni elettrocardiografiche alla base dello studio. Infine, verrà trattata la fibrillazione atriale, definendola dal punto di vista diagnostico, eziologico, ricercando quindi le cause e i meccanismi con cui opera ed epidemiologico, osservando dunque chi e con quale frequenza viene colpito. Nel Capitolo 2 sarà introdotto il Machine Learning, disciplina informatica che costituisce lo strumento di analisi utilizzato in questo lavoro, tramite la presentazione di diversi modelli. Al fine di caratterizzarne la struttura, verrà definito in termini generali il problema di classificazione, in modo da fornire una notazione comune per tutti gli algoritmi trattati successivamente. Saranno descritte le metriche di valutazione dal punto di vista matematico, le quali stimano la bontà di un modello in termini di classificazione e i processi di pre-elaborazione dei dati per la loro ottimizzazione. Infine verranno definiti i tre modelli sfruttati per l'allenamento dei dati, conosciuti in letteratura come k-Nearest Neighbors, Random Forest e Multilayer Perceptron. Nel Capitolo 3 saranno illustrati i risultati prodotti dalle diverse simulazioni in silico, addestrando i modelli sopra citati. L'obiettivo principale di questo lavoro di tesi è quello di valutare il grado di apprendimento di ciascun algoritmo nell'identificazione della patologia, in termini delle metriche di valutazione introdotte precedentemente, determinando quello più efficiente. Saranno condotte due tipologie di simulazioni: una che considererà solo i dati relativi ai segnali elettrocardiografici, a cui verranno applicate le normalizzazioni descritte in precedenza e l'altra che terrà conto anche dei metadati. Infine verranno confrontati i diversi risultati delle simulazioni, concludendo con riflessioni sull'efficienza di questi ultimi.

Metodi di Machine Learning per l'identificazione della Fibrillazione Atriale in ECG a 12 derivazioni

CUCCHI, IVAN
2021/2022

Abstract

This thesis work aims to study the problem of identifying atrial fibrillation; different Machine Learning models are trained for recognizing the pathology through the analysis of the PTB-XL database, discriminating its data between three macro classes. Below is a brief summary of the most relevant contents of each chapter. The chapter 1 presents the heart, the main organ of this study, providing information of its anatomical and physiological nature. Besides, are shown the main functions of cardiac tissue, describing its shape and composition, in order to introduce its essential biology, with particular attention to the electrical processes produced internally by the conduction system. Furthermore, it is illustrated the electrocardiogram, a graphic reproduction of heart’s activity, distinguishing the different waves that compose it and the positions of the electrodes: instruments for detecting electrical currents, determining the 12-lead ecg at the base of the study. Finally, the chapter deals with atrial fibrillation, defining it from a diagnostic and etiological point of view, thus researching the causes and mechanisms which it operates with, and epidemiological, thus observing who and how often is affected by. The chapter 2 introduces Machine Learning, a computer discipline that constitutes the analysis tool used in this work, through the presentation of different models. In order to characterize ML’s structure, in this part of work is defined the classification problem in general terms, in order to provide a common notation for all the algorithms treated later. Then, it is described evaluation metrics from a mathematical point of view, which estimate the goodness of a model in terms of classification and the processes of data preprocessing for their optimization. In the end of the chapter are presented the three models exploited for data training, known in the literature as k-Nearest Neighbors, Random Forest and Multilayer Perceptron. The chapter 3 illustrates the results produced by the various artificial simulations, training the models mentioned above. The main purpose of this thesis work is to evaluate the learning degree of each algorithm in the identification of the pathology, in terms of the previously introduced evaluation metrics, determining the most efficient one. In this part are carried out two types of simulations: one that consider only the data relating to the electrocardiographic signals, applying the previously described normalizations and the other that also takes into account the metadata. At last, a comparison of different results of the simulations, concluding with reflections on the efficiency of the latter.
2021
Machine Learning methods for the identification of Atrial Fibrillation in 12-lead ECG
Questo lavoro di tesi si pone l'obiettivo di studiare il problema dell'identificazione della fibrillazione atriale; vengono addestrati diversi modelli di Machine Learning che riconoscono la patologia attraverso l'analisi del database PTB-XL, discriminando i dati in esso contenuti tra tre macro classi. Di seguito viene riportato un breve riassunto dei contenuti più rilevanti di ciascun capitolo. Nel Capitolo 1 sarà presentato il cuore, l'organo protagonista di questo studio, fornendo informazioni di carattere anatomico e fisiologico. Saranno descritte le principali funzioni del tessuto cardiaco, descrivendone forma e composizione, al fine di introdurre la sua biologia essenziale, con particolare attenzione ai processi elettrici prodotti internamente dal sistema di conduzione. Verranno illustrati l'elettrocardiogramma, riproduzione grafica di tale attività, distinguendo le diverse onde che lo compongono e le posizioni degli elettrodi, strumenti per la rilevazione delle correnti elettriche, che determinano le 12 derivazioni elettrocardiografiche alla base dello studio. Infine, verrà trattata la fibrillazione atriale, definendola dal punto di vista diagnostico, eziologico, ricercando quindi le cause e i meccanismi con cui opera ed epidemiologico, osservando dunque chi e con quale frequenza viene colpito. Nel Capitolo 2 sarà introdotto il Machine Learning, disciplina informatica che costituisce lo strumento di analisi utilizzato in questo lavoro, tramite la presentazione di diversi modelli. Al fine di caratterizzarne la struttura, verrà definito in termini generali il problema di classificazione, in modo da fornire una notazione comune per tutti gli algoritmi trattati successivamente. Saranno descritte le metriche di valutazione dal punto di vista matematico, le quali stimano la bontà di un modello in termini di classificazione e i processi di pre-elaborazione dei dati per la loro ottimizzazione. Infine verranno definiti i tre modelli sfruttati per l'allenamento dei dati, conosciuti in letteratura come k-Nearest Neighbors, Random Forest e Multilayer Perceptron. Nel Capitolo 3 saranno illustrati i risultati prodotti dalle diverse simulazioni in silico, addestrando i modelli sopra citati. L'obiettivo principale di questo lavoro di tesi è quello di valutare il grado di apprendimento di ciascun algoritmo nell'identificazione della patologia, in termini delle metriche di valutazione introdotte precedentemente, determinando quello più efficiente. Saranno condotte due tipologie di simulazioni: una che considererà solo i dati relativi ai segnali elettrocardiografici, a cui verranno applicate le normalizzazioni descritte in precedenza e l'altra che terrà conto anche dei metadati. Infine verranno confrontati i diversi risultati delle simulazioni, concludendo con riflessioni sull'efficienza di questi ultimi.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/15773