Colorectal cancer (CRC) is the third most common type of cancer worldwide. Early detection of colorectal cancer is critical, as the five-year life expectancy drops significantly from 95% at stage I to a mere 7% at stage IV [2] [1]. So far, the early detection of CRC is mainly focused on the predictive value of pre-existing, well-known signs and symptoms, using coded routine data from primary care. Therefore, one possible underused source of critical information may lay in the uncoded data, i.e. free-text consultation notes that General Practitioners (GPs) keep in patients’ Electronic Medical Records (EMRs) [3]. The aim of this work is hence to levarage consultation notes in order to achieve better performance in the early detection of CRC. Analyzing uncoded data on a large scale to find early predictors has been a difficult task for a long time, but the rise of deep learning techinques and their succesful application on Natural Language Processing (NLP) has made it feasible even on general consumer laptops. Results evidence this source of information has an important predictive value that can be used to improve oncological prediction models. Keeping sensitivity above 95%, models built this way show a significative reduction of the amount of patients not referred, avoiding them to undergo dangerous and expensive tests for CRC. The activity has been carried out at Medical Informatics department of the Amsterdam’s Academisch Medisch Centrum.

Migliorare la diagnosi precoce del tumore del colon-retto con Elaborazione del Linguaggio Naturale. Il tumore del colon-retto (CRC) é il terzo tipo di tumore piú diffuso al mondo. La diagnosi precoce di questo tumore é cruciale, con un tasso di sopravvivenza a cinque anni che dal 95% del I stadio cala drasticamente al 7% per il IV stadio [2] [1]. Fino ad oggi, la diagnosi precoce del CRC si è focalizzata sul valore preditti- vo di segni e sintomi noti e codificati, provenienti dall’assistenza primaria. Una fonte di informazione inutilizzata potrebbe dunque risiedere nella componen- te che non é possibile codificare, come le annotazioni mediche del personale ospedaliero (GPs) raccolte sotto forma di testo libero nelle cartelle cliniche elettroniche (EMRs) [3]. L’obiettivo di questo lavoro é quindi quello di utilizzare le annotazioni medi- che per ottenere performance migliori nella diagnosi precoce del CRC. L’analisi di dati non codificati in cerca di indicatori precoci è rimasta a lungo una pra- tica complessa, ma l’ascesa delle tecniche di Deep Learning (DL) e Natural Language Processing (NLP) l’ha resa oggi alla portata di tutti i calcolatori. I risultati hanno mostrato come questa fonte di informazione abbia un importante valore predittivo e possa essere usata per migliorare i modelli pre- dittivi oncologici. Pur mantenendo la sensibilità al di sopra del 95%, questi modelli mostrano infatti una significativa riduzione del numero di pazienti refertati, evitando loro di sottoporsi a pericolosi e costosi test per il CRC. L’attività é stata svolta presso il dipartimento di Informatica Medica del- l’Academisch Medisch Centrum di Amsterdam.

Improving Early Detection of Colorectal Cancer with Natural Language Processing

BUONOCORE, TOMMASO MARIO
2018/2019

Abstract

Colorectal cancer (CRC) is the third most common type of cancer worldwide. Early detection of colorectal cancer is critical, as the five-year life expectancy drops significantly from 95% at stage I to a mere 7% at stage IV [2] [1]. So far, the early detection of CRC is mainly focused on the predictive value of pre-existing, well-known signs and symptoms, using coded routine data from primary care. Therefore, one possible underused source of critical information may lay in the uncoded data, i.e. free-text consultation notes that General Practitioners (GPs) keep in patients’ Electronic Medical Records (EMRs) [3]. The aim of this work is hence to levarage consultation notes in order to achieve better performance in the early detection of CRC. Analyzing uncoded data on a large scale to find early predictors has been a difficult task for a long time, but the rise of deep learning techinques and their succesful application on Natural Language Processing (NLP) has made it feasible even on general consumer laptops. Results evidence this source of information has an important predictive value that can be used to improve oncological prediction models. Keeping sensitivity above 95%, models built this way show a significative reduction of the amount of patients not referred, avoiding them to undergo dangerous and expensive tests for CRC. The activity has been carried out at Medical Informatics department of the Amsterdam’s Academisch Medisch Centrum.
2018
Improving Early Detection of Colorectal Cancer with Natural Language Processing
Migliorare la diagnosi precoce del tumore del colon-retto con Elaborazione del Linguaggio Naturale. Il tumore del colon-retto (CRC) é il terzo tipo di tumore piú diffuso al mondo. La diagnosi precoce di questo tumore é cruciale, con un tasso di sopravvivenza a cinque anni che dal 95% del I stadio cala drasticamente al 7% per il IV stadio [2] [1]. Fino ad oggi, la diagnosi precoce del CRC si è focalizzata sul valore preditti- vo di segni e sintomi noti e codificati, provenienti dall’assistenza primaria. Una fonte di informazione inutilizzata potrebbe dunque risiedere nella componen- te che non é possibile codificare, come le annotazioni mediche del personale ospedaliero (GPs) raccolte sotto forma di testo libero nelle cartelle cliniche elettroniche (EMRs) [3]. L’obiettivo di questo lavoro é quindi quello di utilizzare le annotazioni medi- che per ottenere performance migliori nella diagnosi precoce del CRC. L’analisi di dati non codificati in cerca di indicatori precoci è rimasta a lungo una pra- tica complessa, ma l’ascesa delle tecniche di Deep Learning (DL) e Natural Language Processing (NLP) l’ha resa oggi alla portata di tutti i calcolatori. I risultati hanno mostrato come questa fonte di informazione abbia un importante valore predittivo e possa essere usata per migliorare i modelli pre- dittivi oncologici. Pur mantenendo la sensibilità al di sopra del 95%, questi modelli mostrano infatti una significativa riduzione del numero di pazienti refertati, evitando loro di sottoporsi a pericolosi e costosi test per il CRC. L’attività é stata svolta presso il dipartimento di Informatica Medica del- l’Academisch Medisch Centrum di Amsterdam.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/22489