Impaired blood glucose control is very frequent in preterm infants. Recent literature has investigated the association between early hyperglycemia, i.e. in the first weeks of life, and increased morbidity and mortality in this population. To learn more about the association between hyperglycemia and health outcomes and, in general, to improve the knowledge on metabolic control in preterm infants, it is necessary to further study and analyse the glycemic signal, i.e. the concentration of glucose in blood over time. In this context, this work focuses on the detection of patterns in the glycemic signal that could help in the early detection of possible correlated problems, as well as in more effective monitoring and glycemic control. The glycemic data used in this thesis include the initial six days of life for a group of 61 premature infants, selected from an original cohort of 80, and were gathered at the Hospital Universitario Puerta del Mar in Cadiz, Spain, as part of a collaboration with the Artificial Intelligence Laboratory at the University of Ljubljana, where this thesis was developed. From the methodological viewpoint, two approaches are explored: i) a supervised approach relying on features extracted from the glycemic signal, and ii) an unsupervised approach that works directly on the time series data. In the first approach, for each subject, we extract descriptive features together with glycemic variability measures from the signal of the initial three days of life. We then define the class for each subject as the presence of hyperglycemia episodes at five-six days after birth. We train four machine learning algorithms and evaluate their performance for the early detection of hyperglycemia. In addition, a Relief-based method is used to identify the most informative features for the prediction of the class. In the unsupervised approach, we apply a clustering method based on the Dynamic Time Warping (DTW) distance metric on the raw blood glucose signal of the first three days. The results of the supervised approach allows identifying a set of features that seem promising in the context of early hyperglycemia detection. For the unsupervised approach, even though DTW-based clustering confirms its ability to identify different patterns in the data, the considerable variability of the signal prevents the identification of highly characterized groups.
Le alterazioni del controllo dei livelli del glucosio nel sangue sono molto frequenti nei neonati pretermine. La letteratura recente ha studiato l'associazione tra l’iperglicemia precoce, ossia insorgente nelle prime settimane di vita, e l’aumento della morbidità e della mortalità in questa popolazione. Per identificare la relazione che esiste tra l’iperglicemia ed ulteriori esiti clinici e, in generale, per migliorare le conoscenze su questa tipologia di controllo metabolico nei neonati pretermine, è necessario approfondire lo studio e l'analisi del segnale glicemico, ovvero il segnale della concentrazione di glucosio nel sangue nel corso del tempo. In questo contesto, il presente lavoro di tesi si concentra sulla ricerca e l’identificazione di regolarità e pattern significativi nel segnale glicemico, i quali potrebbero aiutare ad identificare tempestivamente eventuali problemi clinici correlati, oltre che il monitoraggio più efficacie del controllo glicemico. I dati utilizzati in questo lavoro corrispondono alle serie temporali delle glicemie relative ai primi sei giorni di vita di un gruppo di 61 neonati prematuri, selezionati per l’analisi da una coorte di 80, e sono stati raccolti e resi disponibili dall’Ospedale Universitario Puerta del Mar di Cadice, Spagna, nell’ambito di una collaborazione con il Laboratorio di Intelligenza Artificiale dell’Università di Ljubljana, Slovenia, dove questa tesi è stata sviluppata. L’analisi dei dati ha previso l’utilizzo di due diverse strategie: i) un approccio supervisionato basato su alcune feature estratte dal segnale glicemico e ii) un approccio non supervisionato che sfrutta algoritmi di clustering in grado di utilizzare direttamente il segnale delle glicemie. Nel primo approccio, per ogni soggetto, estraiamo delle variabili descrittive e delle misure di variabilità glicemica dal segnale nei primi tre giorni di vita. La classe di ogni soggetto viene definita in base al verificarsi di episodi di iperglicemia dopo cinque-sei giorni dalla nascita. Si considerano quattro algoritmi di apprendimento automatico, che vengono valutati in base alla loro capacità di predire tempestivamente l'iperglicemia. Inoltre, è stato applicato un metodo derivante dall’algoritmo Relief per identificare le caratteristiche più informative per la predizione della classe. Nell'approccio non supervisionato, invece, utilizziamo il segnale grezzo dei tre giorni iniziali di registrazione applicando un metodo di clustering basato sulla metrica di distanza Dynamic Time Warping (DTW), la quale è in grado di evidenziare le somiglianze basate sulla forma nelle serie temporali. I risultati dell’approccio supervisionato suggeriscono alcune feature che sembrano rilevanti per individuare l’insorgenza di episodi di iperglicemia. L’analisi non supervisionata, nonostante il clustering con similarità DTW si dimostri efficace per identificare dei gruppi caratterizzati da pattern temporali diversi, subisce l’impatto della variabilità presente nel segnale in oggetto non consentendo di definire la rilevanza clinica dei risultati ottenuti.
Riconoscimento di Pattern Tramite Algoritmi di Machine Learning nei Segnali Glicemici dei Neonati Pretermine
PESCOL, FRANCESCA
2022/2023
Abstract
Impaired blood glucose control is very frequent in preterm infants. Recent literature has investigated the association between early hyperglycemia, i.e. in the first weeks of life, and increased morbidity and mortality in this population. To learn more about the association between hyperglycemia and health outcomes and, in general, to improve the knowledge on metabolic control in preterm infants, it is necessary to further study and analyse the glycemic signal, i.e. the concentration of glucose in blood over time. In this context, this work focuses on the detection of patterns in the glycemic signal that could help in the early detection of possible correlated problems, as well as in more effective monitoring and glycemic control. The glycemic data used in this thesis include the initial six days of life for a group of 61 premature infants, selected from an original cohort of 80, and were gathered at the Hospital Universitario Puerta del Mar in Cadiz, Spain, as part of a collaboration with the Artificial Intelligence Laboratory at the University of Ljubljana, where this thesis was developed. From the methodological viewpoint, two approaches are explored: i) a supervised approach relying on features extracted from the glycemic signal, and ii) an unsupervised approach that works directly on the time series data. In the first approach, for each subject, we extract descriptive features together with glycemic variability measures from the signal of the initial three days of life. We then define the class for each subject as the presence of hyperglycemia episodes at five-six days after birth. We train four machine learning algorithms and evaluate their performance for the early detection of hyperglycemia. In addition, a Relief-based method is used to identify the most informative features for the prediction of the class. In the unsupervised approach, we apply a clustering method based on the Dynamic Time Warping (DTW) distance metric on the raw blood glucose signal of the first three days. The results of the supervised approach allows identifying a set of features that seem promising in the context of early hyperglycemia detection. For the unsupervised approach, even though DTW-based clustering confirms its ability to identify different patterns in the data, the considerable variability of the signal prevents the identification of highly characterized groups.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/16751