This thesis, developed in the framework of INFN's AIM\_MIA funded project, focuses on the development and evaluation of 3D Convolutional Neural Networks (CNNs) for the classification of three-dimensional CT images of patients' faces to determine if they are healthy or affected by diseases such as sinusitis or a combination of sinusitis and polyposis. Additionally, a second network was developed and evaluated to assess the severity of the disease. A key element of this work is the implementation of 3D Grad-CAM, which enabled the visualization of the CT image regions that most influenced the network's decisions, thus providing a visual interpretation of its classifications. Unlike existing literature, where Grad-CAM has been applied only to 2D networks, this project developed a 3D Grad-CAM compatible with three-dimensional networks without modifying their architecture. Before designing the network, an in-depth dataset analysis was conducted, transforming raw three-dimensional CT images into tensors suitable as CNN input. Various convolutional network architectures were analyzed to address a common deep learning issue: overfitting, where the network fails to generalize properly. Approaches without data augmentation, with data augmentation, and with a combination of data augmentation and L2 regularization were tested. The use of data augmentation, applying random transformations to input tensors, significantly improved network performance. This led to the implementation of data augmentation in a second network designed to assess disease severity. The 3D network for CT image classification was evaluated using standard metrics such as accuracy, precision, recall, F1-score, and ROC-AUC score, achieving excellent results comparable to some networks already applied in the medical field. However, the primary focus of the thesis was the use of 3D Grad-CAM for a more in-depth study. The 3D Grad-CAM implementation revealed that the network correctly identifies the paranasal sinuses, the regions of interest for diagnosis, but also showed that in some cases, the network's attention shifts to irrelevant regions or areas outside the anatomical region of interest. This may result from the importance assigned to noise elements present in the images. To address this issue, a larger clinical dataset would be needed to improve the network’s generalization capability and further crop the input tensors to force the network to focus exclusively on the paranasal sinuses. This study demonstrates that although CNNs offer excellent results in diagnosis based on three-dimensional CT images, it is crucial to carrefully analyze them to understand their decision-making process. The project represents a bridge between deep learning and medicine, providing support to radiologists in diagnosing sinusitis and polyposis, while emphasizing the indispensable role of medical professionals in accurately interpreting neural network results.

Questa tesi, sviluppata nell'ambito della sigla INFN AIM\_MIA, si concentra sullo sviluppo e valutazioni di reti neurali convoluzionali 3D (CNN) per la classificazione di immagini TC tridimensionali del viso di pazienti al fine di determinare se essi siano sani o affetti da patologie come sinusiti o una combinazione di sinusiti e poliposi, così come sullo sviluppo e valutazione di CNN per definire la gravità della malattia. Un elemento chiave del lavoro è l'implementazione della Grad-CAM 3D, che ha permesso di visualizzare le regioni delle immagini TC che hanno maggiormente influenzato le decisioni della rete, fornendo così un'interpretazione visiva delle sue classificazioni. A differenza della letteratura esistente, in cui la Grad-CAM è stata applicata solo a reti 2D, questo progetto ha sviluppato una Grad-CAM 3D compatibile con reti tridimensionali senza modificarne l'architettura. Prima della progettazione della rete, è stata condotta un'analisi approfondita del dataset, trasformando le immagini TC tridimensionali grezze in tensori adatti come input della CNN. Sono state analizzate diverse architetture di reti convoluzionali per affrontare un problema comune nel deep learning: l'overfitting, ovvero l'incapacità della rete di generalizzare correttamente. Sono stati testati approcci senza data augmentation, con data augmentation e con una combinazione di data augmentation e regolarizzazione L2. L'uso della data augmentation, applicando trasformazioni casuali ai tensori di input, ha portato a un netto miglioramento delle prestazioni della rete. Questo ha portato all'implementazione della data augmentation anche in una seconda rete progettata per valutare la gravità della malattia. La rete 3D per la classificazione delle immagini Tc tridimensionali è stata valutata attraverso parametri standard come accuracy, precision, recall, F1-score, ROC-AUC score, ottenendo risultati ottimi comparabili ad alcune reti gia applicate in ambito medico. Tuttavia, il focus principale della tesi è stato l'uso delle Grad-CAM 3D per uno studio più approfondito. L'implementazione della Grad-CAM 3D ha rivelato che la rete riesce a individuare correttamente i seni paranasali, le aree di interesse per la diagnosi, ma ha anche mostrato come, in alcuni casi (pur classificati nel modo giusto), l'attenzione della rete si sposti su regioni irrilevanti o esterne all'area anatomica di interesse. Questo potrebbe derivare dall'importanza assegnata a elementi di disturbo presenti nelle immagini. Per risolvere questo problema, sarebbe necessario un dataset clinico più ampio per migliorare la capacità della rete di generalizzare e un'ulteriore riduzione dei tensori di input per forzare la rete a concentrarsi esclusivamente sui seni paranasali. Questo studio dimostra come, nonostante le CNN offrano ottimi risultati nella diagnosi basata su immagini TC tridimensionali, sia fondamentale analizzarle attentamente per comprendere il processo decisionale. Il progetto rappresenta un ponte tra deep learning e medicina, proponendo un supporto ai radiologi nella diagnosi di sinusiti e poliposi, pur sottolineando l'importanza insostituibile della figura del medico nell'interpretazione corretta dei risultati della rete neurale.

Pre-processing, sviluppo e valutazione di un rete neurale convoluzionale per la diagnosi di malattie dei seni paranasali

SCAGNI, MARTINA
2023/2024

Abstract

This thesis, developed in the framework of INFN's AIM\_MIA funded project, focuses on the development and evaluation of 3D Convolutional Neural Networks (CNNs) for the classification of three-dimensional CT images of patients' faces to determine if they are healthy or affected by diseases such as sinusitis or a combination of sinusitis and polyposis. Additionally, a second network was developed and evaluated to assess the severity of the disease. A key element of this work is the implementation of 3D Grad-CAM, which enabled the visualization of the CT image regions that most influenced the network's decisions, thus providing a visual interpretation of its classifications. Unlike existing literature, where Grad-CAM has been applied only to 2D networks, this project developed a 3D Grad-CAM compatible with three-dimensional networks without modifying their architecture. Before designing the network, an in-depth dataset analysis was conducted, transforming raw three-dimensional CT images into tensors suitable as CNN input. Various convolutional network architectures were analyzed to address a common deep learning issue: overfitting, where the network fails to generalize properly. Approaches without data augmentation, with data augmentation, and with a combination of data augmentation and L2 regularization were tested. The use of data augmentation, applying random transformations to input tensors, significantly improved network performance. This led to the implementation of data augmentation in a second network designed to assess disease severity. The 3D network for CT image classification was evaluated using standard metrics such as accuracy, precision, recall, F1-score, and ROC-AUC score, achieving excellent results comparable to some networks already applied in the medical field. However, the primary focus of the thesis was the use of 3D Grad-CAM for a more in-depth study. The 3D Grad-CAM implementation revealed that the network correctly identifies the paranasal sinuses, the regions of interest for diagnosis, but also showed that in some cases, the network's attention shifts to irrelevant regions or areas outside the anatomical region of interest. This may result from the importance assigned to noise elements present in the images. To address this issue, a larger clinical dataset would be needed to improve the network’s generalization capability and further crop the input tensors to force the network to focus exclusively on the paranasal sinuses. This study demonstrates that although CNNs offer excellent results in diagnosis based on three-dimensional CT images, it is crucial to carrefully analyze them to understand their decision-making process. The project represents a bridge between deep learning and medicine, providing support to radiologists in diagnosing sinusitis and polyposis, while emphasizing the indispensable role of medical professionals in accurately interpreting neural network results.
2023
Pre-processing, development, and evaluation of a convolutional neural network for diagnosing paranasal sinus diseases
Questa tesi, sviluppata nell'ambito della sigla INFN AIM\_MIA, si concentra sullo sviluppo e valutazioni di reti neurali convoluzionali 3D (CNN) per la classificazione di immagini TC tridimensionali del viso di pazienti al fine di determinare se essi siano sani o affetti da patologie come sinusiti o una combinazione di sinusiti e poliposi, così come sullo sviluppo e valutazione di CNN per definire la gravità della malattia. Un elemento chiave del lavoro è l'implementazione della Grad-CAM 3D, che ha permesso di visualizzare le regioni delle immagini TC che hanno maggiormente influenzato le decisioni della rete, fornendo così un'interpretazione visiva delle sue classificazioni. A differenza della letteratura esistente, in cui la Grad-CAM è stata applicata solo a reti 2D, questo progetto ha sviluppato una Grad-CAM 3D compatibile con reti tridimensionali senza modificarne l'architettura. Prima della progettazione della rete, è stata condotta un'analisi approfondita del dataset, trasformando le immagini TC tridimensionali grezze in tensori adatti come input della CNN. Sono state analizzate diverse architetture di reti convoluzionali per affrontare un problema comune nel deep learning: l'overfitting, ovvero l'incapacità della rete di generalizzare correttamente. Sono stati testati approcci senza data augmentation, con data augmentation e con una combinazione di data augmentation e regolarizzazione L2. L'uso della data augmentation, applicando trasformazioni casuali ai tensori di input, ha portato a un netto miglioramento delle prestazioni della rete. Questo ha portato all'implementazione della data augmentation anche in una seconda rete progettata per valutare la gravità della malattia. La rete 3D per la classificazione delle immagini Tc tridimensionali è stata valutata attraverso parametri standard come accuracy, precision, recall, F1-score, ROC-AUC score, ottenendo risultati ottimi comparabili ad alcune reti gia applicate in ambito medico. Tuttavia, il focus principale della tesi è stato l'uso delle Grad-CAM 3D per uno studio più approfondito. L'implementazione della Grad-CAM 3D ha rivelato che la rete riesce a individuare correttamente i seni paranasali, le aree di interesse per la diagnosi, ma ha anche mostrato come, in alcuni casi (pur classificati nel modo giusto), l'attenzione della rete si sposti su regioni irrilevanti o esterne all'area anatomica di interesse. Questo potrebbe derivare dall'importanza assegnata a elementi di disturbo presenti nelle immagini. Per risolvere questo problema, sarebbe necessario un dataset clinico più ampio per migliorare la capacità della rete di generalizzare e un'ulteriore riduzione dei tensori di input per forzare la rete a concentrarsi esclusivamente sui seni paranasali. Questo studio dimostra come, nonostante le CNN offrano ottimi risultati nella diagnosi basata su immagini TC tridimensionali, sia fondamentale analizzarle attentamente per comprendere il processo decisionale. Il progetto rappresenta un ponte tra deep learning e medicina, proponendo un supporto ai radiologi nella diagnosi di sinusiti e poliposi, pur sottolineando l'importanza insostituibile della figura del medico nell'interpretazione corretta dei risultati della rete neurale.
File in questo prodotto:
File Dimensione Formato  
Tesi_Scagni.pdf

accesso aperto

Descrizione: Tesi di laurea magistrale in scienze fisiche
Dimensione 23.99 MB
Formato Adobe PDF
23.99 MB Adobe PDF Visualizza/Apri

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/28544