Prediction models provide a risk assessment of either a current disease (diagnosis) or an event that will happen in the future (prognosis). Mortality prediction is an important prognostic task in clinical medicine for example for timely detection of health status deterioration or for resource allocation. Hence mortality prediction forms one of the most studied tasks in medical data mining. Most mortality prediction models use, as predictors, structured data such as demographic variables. It is hypothesized that free text in clinical notes, that constitute a large part of the contents of electronic health records, possess predictive information. Recently Natural Language Processing applications attempted to predict the patient mortality only using clinical notes. These approaches have been boosted by the use of deep learning models, that have become very popular in NLP due their ability to automatically learn effective data representations, specifically text in this case. Essentially, the main idea is that words receive representations of their “meaning” based on other words appearing their context. However, seeking meaning only in neighboring text misses other sources of meaning. Specifically, concepts appearing in biomedical knowledge bases can enhance the text representations improving thereby the meaning of the words. In turn, this improved representation may be beneficial to predicting clinical outcomes. The aim of this thesis is to investigate the extent to which a biomedical knowledge base can contribute to mortality prediction in the Intensive Care. We utilize the MIMIIC public Intensive Care database. We start by applying deep learning to its clinical notes to learn word representations that we then use to predict patient mortality. Next, we seek to improve the mortality prediction by enriching the pre-trained text representations by exploiting semantic relations residing in the UMLS and SNOMED-CT. Finally we compare the predictive performance before and after enriching the text. We assess the representations performance comparing the areas under the ROC and under the Precision-Recall curve. In addition, we evaluate the representations’ calibration using a calibration plot. Subsequently, we compare the improved text representations using 5-fold cross-validation. Finally we assess the statistical significance using paired t-test. We observe that an enriched text representation can improve mortality prediction in predictive performance, including calibration. However, we do not find statistical difference with the prediction obtained with pre-trained text representation. We share our proposed total Python pipeline that extracts from notes the medical concepts, link them to Knowledge bases entities and derive their relations. This pipeline permits to build semantic structures such as lexicons and graphs. The improved predictions on patient mortality offered by predictive models may improve patients’ care itself. In addition, by taking advantage of the spread of Electronic Health Records, the tools we investigate can provide a common point of reference for Intensive Care outcomes procedures.

Rappresentazioni testuali pre-allenate con basi di conoscenza per predizioni della mortalità. I modelli predittivi permettono di valutare il rischio di una possibile malattia (diagnosi) o di un evento che potrebbe accadere in futuro (prognosi). Le predizioni sulla mortalità costituiscono un importante task clinico a carattere prognostico ed uno dei più diffusi task in ambito di data mining medico. Lo studio di queste predizioni può avere un ruolo decisivo nella tempestiva rilevazione del deterioramento dello stato di salute dei pazienti e nell’ottimizzazione dell’allocazione delle risorse. La maggior parte dei modelli predittivi utilizza come predittori dati strutturati, ad esempio demografici. Una crescente attenzione viene rivolta ai dati testuali contenuti nei report clinici; si ipotizza infatti che il testo, che costituisce una parte rilevante delle cartelle cliniche, abbia un alto valore predittivo. Recentemente, sono state proposte diverse applicazioni di Natural Language Processing per predire la mortalità dei pazienti, fancedo leva esclusivamente sulle note cliniche raccolte durante la loro ospedalizzazione. Questi approcci sono stati potenziati dall’uso di modelli basati su deep learning, divenuti popolari grazie alla loro capacità di apprendere automaticamente rappresentazioni efficaci dei dati in input, nel nostro caso rappresentazioni testuali. Le rappresentazioni testuali si basano sul principio secondo il quale parole che appaiono nello stesso contesto hanno un significato comune. Tuttavia questa visione potrebbe essere limitativa, e far perdere la capacità di interpretare il significato alle parole in frasi o contesti complessi. In particolare, i concetti presenti nelle basi di conoscenza biomediche possono migliorare le rappresentazioni testuali, andando ad arricchire il significato delle parole stesse. Le rappresentazioni testuali “migliorate” con la conoscenza di dominio possono essere a loro volta utili per predire risultati clinici. Lo scopo di questo lavoro è indagare la misura in cui una base di conoscenza biomedica può contribuire alla previsione di mortalità nella terapia intensiva. Il punto di partenza è il database pubblico MIMIC, contenente informazioni sull’ospedalizzazione di pazienti ammessi in terapia intensiva. Inizialmente vengono utilizzate le annotazioni cliniche del database per ottenere una rappresentazione testuale. Questa viene poi impiegata per predire la mortalità dei pazienti. Successivamente si cerca di migliorare le previsioni sulla mortalità, arricchendo le rappresentazioni pre-allenate attraverso relazioni semantiche provenienti da UMLS e SNOMED-CT. Infine, vengono confrontate le performance predittive delle rappresentazioni ottenute. Un ulteriore contributo della tesi è fornire una pipeline implementata in linguaggio di programmazione Python, in grado di estrarre concetti medici dalle annotazioni cliniche, collegarli ad entità presenti nelle basi di conoscenza e da esse ricavare relazioni semantiche. Attraverso questi procedimenti è possibile costruire strutture semantiche come lessici e grafi. Le rappresentazioni vengono confrontate valutando le aree sotto le curve ROC e curve Precision-Recall. Inoltre, viene analizzata la precisione delle predizioni attraverso l’utilizzo di grafici di calibrazione. Infine, le rappresentazioni di testo vengono confrontate con il metodo della 5-fold cross validation ed eventuali differenze significative nelle predizioni vengono valutate statisticamente con t-test per campioni appaiati. I risultati mostrano che una rappresentazione testuale arricchita può migliorare le previsioni di mortalità in termini predittivi. Tuttavia, non sono state trovate differenze significative con le predizioni ottenute con la rappresentazione del testo pre-allenata.

Pre-trained text representations with knowledge bases for mortality prediction

ALBI, GIUSEPPE
2019/2020

Abstract

Prediction models provide a risk assessment of either a current disease (diagnosis) or an event that will happen in the future (prognosis). Mortality prediction is an important prognostic task in clinical medicine for example for timely detection of health status deterioration or for resource allocation. Hence mortality prediction forms one of the most studied tasks in medical data mining. Most mortality prediction models use, as predictors, structured data such as demographic variables. It is hypothesized that free text in clinical notes, that constitute a large part of the contents of electronic health records, possess predictive information. Recently Natural Language Processing applications attempted to predict the patient mortality only using clinical notes. These approaches have been boosted by the use of deep learning models, that have become very popular in NLP due their ability to automatically learn effective data representations, specifically text in this case. Essentially, the main idea is that words receive representations of their “meaning” based on other words appearing their context. However, seeking meaning only in neighboring text misses other sources of meaning. Specifically, concepts appearing in biomedical knowledge bases can enhance the text representations improving thereby the meaning of the words. In turn, this improved representation may be beneficial to predicting clinical outcomes. The aim of this thesis is to investigate the extent to which a biomedical knowledge base can contribute to mortality prediction in the Intensive Care. We utilize the MIMIIC public Intensive Care database. We start by applying deep learning to its clinical notes to learn word representations that we then use to predict patient mortality. Next, we seek to improve the mortality prediction by enriching the pre-trained text representations by exploiting semantic relations residing in the UMLS and SNOMED-CT. Finally we compare the predictive performance before and after enriching the text. We assess the representations performance comparing the areas under the ROC and under the Precision-Recall curve. In addition, we evaluate the representations’ calibration using a calibration plot. Subsequently, we compare the improved text representations using 5-fold cross-validation. Finally we assess the statistical significance using paired t-test. We observe that an enriched text representation can improve mortality prediction in predictive performance, including calibration. However, we do not find statistical difference with the prediction obtained with pre-trained text representation. We share our proposed total Python pipeline that extracts from notes the medical concepts, link them to Knowledge bases entities and derive their relations. This pipeline permits to build semantic structures such as lexicons and graphs. The improved predictions on patient mortality offered by predictive models may improve patients’ care itself. In addition, by taking advantage of the spread of Electronic Health Records, the tools we investigate can provide a common point of reference for Intensive Care outcomes procedures.
2019
Pre-trained text representations with knowledge bases for mortality prediction
Rappresentazioni testuali pre-allenate con basi di conoscenza per predizioni della mortalità. I modelli predittivi permettono di valutare il rischio di una possibile malattia (diagnosi) o di un evento che potrebbe accadere in futuro (prognosi). Le predizioni sulla mortalità costituiscono un importante task clinico a carattere prognostico ed uno dei più diffusi task in ambito di data mining medico. Lo studio di queste predizioni può avere un ruolo decisivo nella tempestiva rilevazione del deterioramento dello stato di salute dei pazienti e nell’ottimizzazione dell’allocazione delle risorse. La maggior parte dei modelli predittivi utilizza come predittori dati strutturati, ad esempio demografici. Una crescente attenzione viene rivolta ai dati testuali contenuti nei report clinici; si ipotizza infatti che il testo, che costituisce una parte rilevante delle cartelle cliniche, abbia un alto valore predittivo. Recentemente, sono state proposte diverse applicazioni di Natural Language Processing per predire la mortalità dei pazienti, fancedo leva esclusivamente sulle note cliniche raccolte durante la loro ospedalizzazione. Questi approcci sono stati potenziati dall’uso di modelli basati su deep learning, divenuti popolari grazie alla loro capacità di apprendere automaticamente rappresentazioni efficaci dei dati in input, nel nostro caso rappresentazioni testuali. Le rappresentazioni testuali si basano sul principio secondo il quale parole che appaiono nello stesso contesto hanno un significato comune. Tuttavia questa visione potrebbe essere limitativa, e far perdere la capacità di interpretare il significato alle parole in frasi o contesti complessi. In particolare, i concetti presenti nelle basi di conoscenza biomediche possono migliorare le rappresentazioni testuali, andando ad arricchire il significato delle parole stesse. Le rappresentazioni testuali “migliorate” con la conoscenza di dominio possono essere a loro volta utili per predire risultati clinici. Lo scopo di questo lavoro è indagare la misura in cui una base di conoscenza biomedica può contribuire alla previsione di mortalità nella terapia intensiva. Il punto di partenza è il database pubblico MIMIC, contenente informazioni sull’ospedalizzazione di pazienti ammessi in terapia intensiva. Inizialmente vengono utilizzate le annotazioni cliniche del database per ottenere una rappresentazione testuale. Questa viene poi impiegata per predire la mortalità dei pazienti. Successivamente si cerca di migliorare le previsioni sulla mortalità, arricchendo le rappresentazioni pre-allenate attraverso relazioni semantiche provenienti da UMLS e SNOMED-CT. Infine, vengono confrontate le performance predittive delle rappresentazioni ottenute. Un ulteriore contributo della tesi è fornire una pipeline implementata in linguaggio di programmazione Python, in grado di estrarre concetti medici dalle annotazioni cliniche, collegarli ad entità presenti nelle basi di conoscenza e da esse ricavare relazioni semantiche. Attraverso questi procedimenti è possibile costruire strutture semantiche come lessici e grafi. Le rappresentazioni vengono confrontate valutando le aree sotto le curve ROC e curve Precision-Recall. Inoltre, viene analizzata la precisione delle predizioni attraverso l’utilizzo di grafici di calibrazione. Infine, le rappresentazioni di testo vengono confrontate con il metodo della 5-fold cross validation ed eventuali differenze significative nelle predizioni vengono valutate statisticamente con t-test per campioni appaiati. I risultati mostrano che una rappresentazione testuale arricchita può migliorare le previsioni di mortalità in termini predittivi. Tuttavia, non sono state trovate differenze significative con le predizioni ottenute con la rappresentazione del testo pre-allenata.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/12285