Sepsis remains a significant global health challenge, characterized by a life-threatening dysregulated immune response to infection. The early and accurate diagnosis of sepsis is impeded by the absence of reliable biomarkers; traditional microbiological cultures are often slow and frequently yield false-negative results, particularly in patients undergoing antibiotic treatment. Additionally, commonly used inflammatory markers such as C-reactive protein (CRP), procalcitonin (PCT), and interleukin-6 (IL-6) exhibit insufficient specificity and sensitivity. This thesis seeks to address these limitations by developing and validating a modular transcriptomic signature for the early diagnosis of sepsis. This approach leverages supervised machine learning in conjunction with biological network analysis to accurately capture the complexity of the host immune response. The biomarker discovery pipeline presented in this research integrates statistical feature filtering, machine learning-based gene prioritization, and comprehensive cross-validation across multiple independent cohorts. Specifically, 11 publicly available bulk transcriptomic datasets were utilized to ensure robust gene prioritization and generalizability. This methodological strategy culminated in the identification of a refined and reproducible 15-gene diagnostic panel. These genes were subsequently organized into biologically coherent modules through the application of protein-protein interaction (PPI) network clustering techniques. The resulting gene modules enhance mechanistic interpretation by aligning closely with well-characterized immune pathways and the pathophysiology of sepsis. To enhance the interpretability of identified gene modules, this thesis introduces a novel literature-informed pathway relevance scoring system, achieving a robust relevance score of approximately 0.70 for sepsis-specific pathways. Furthermore, unlike existing gene panels that often lack biological interpretability or sepsis specificity, our signature is distinguished by the fact that all genes are biologically interpretable and explicitly related to sepsis pathogenesis. Comprehensive validation in independent cohorts and single-cell transcriptomic analyses confirmed robust, immune cell-specific gene expression patterns. Benchmarking against established sepsis diagnostic signatures demonstrated superior accuracy and interpretability of our framework. Overall, this thesis provides a reproducible and immunologically informed approach to early sepsis diagnosis, leveraging advanced computational methods and rigorous biological validation, holding significant promise for clinical translation and personalized patient care.
La sepsi è una condizione ancora oggi critica per la salute pubblica, caratterizzata da una risposta immunitaria deregolata e potenzialmente letale. La diagnosi precoce è resa difficile dalla mancanza di biomarcatori affidabili: le colture microbiologiche sono lente e spesso falsamente negative, soprattutto nei pazienti già trattati con antibiotici. Anche i marcatori infiammatori più usati (CRP, PCT, IL-6) presentano bassa specificità e sensibilità. Questa tesi affronta tali limiti sviluppando e validando una firma trascrittomica modulare per la diagnosi precoce della sepsi, combinando apprendimento automatico supervisionato e analisi delle reti biologiche per rappresentare con maggiore precisione la complessità della risposta immunitaria. La pipeline di identificazione dei biomarcatori presentata in questa ricerca integra il filtraggio statistico delle caratteristiche, la prioritizzazione dei geni tramite metodi di apprendimento automatico e una validazione incrociata completa su molteplici coorti indipendenti. In particolare, sono stati utilizzati 11 dataset trascrittomici pubblicamente disponibili per garantire robustezza e generalizzabilità della selezione genica. Tale strategia metodologica ha portato all'identificazione di un pannello diagnostico raffinato e riproducibile composto da 15 geni, successivamente organizzati in moduli biologicamente coerenti mediante tecniche di clustering basate sull'analisi delle interazioni proteina-proteina (PPI). I moduli genici così ottenuti facilitano l'interpretazione meccanicistica, allineandosi strettamente a vie immunologiche ben caratterizzate e alla fisiopatologia della sepsi. Per migliorare l’interpretabilità dei moduli genici identificati, questa tesi introduce un innovativo sistema di punteggio della rilevanza dei pathway basato sulla letteratura, ottenendo un solido punteggio di rilevanza di circa 0,70 per i pathway specifici della sepsi. Inoltre, a differenza dei pannelli genici esistenti che spesso mancano di interpretabilità biologica o specificità per la sepsi, la nostra firma si distingue per il fatto che tutti i geni sono biologicamente interpretabili e direttamente collegati alla patogenesi della sepsi. Una validazione completa in coorti indipendenti e tramite analisi trascrittomiche a singola cellula ha confermato pattern di espressione genica robusti e specifici per le cellule immunitarie. Il confronto con firme diagnostiche consolidate per la sepsi ha dimostrato una superiore accuratezza e interpretabilità del nostro framework. Nel complesso, questa tesi propone un approccio riproducibile e informato dal punto di vista immunologico per la diagnosi precoce della sepsi, sfruttando metodi computazionali avanzati e una rigorosa validazione biologica, con un notevole potenziale per la traduzione clinica e la personalizzazione della cura del paziente.
Un Biomarcatore Trascrittomico Modulare per la Diagnosi della Sepsi mediante Apprendimento Automatico Supervisionato Integrato e Analisi di Reti Biologiche
JOHARI, TANYA
2024/2025
Abstract
Sepsis remains a significant global health challenge, characterized by a life-threatening dysregulated immune response to infection. The early and accurate diagnosis of sepsis is impeded by the absence of reliable biomarkers; traditional microbiological cultures are often slow and frequently yield false-negative results, particularly in patients undergoing antibiotic treatment. Additionally, commonly used inflammatory markers such as C-reactive protein (CRP), procalcitonin (PCT), and interleukin-6 (IL-6) exhibit insufficient specificity and sensitivity. This thesis seeks to address these limitations by developing and validating a modular transcriptomic signature for the early diagnosis of sepsis. This approach leverages supervised machine learning in conjunction with biological network analysis to accurately capture the complexity of the host immune response. The biomarker discovery pipeline presented in this research integrates statistical feature filtering, machine learning-based gene prioritization, and comprehensive cross-validation across multiple independent cohorts. Specifically, 11 publicly available bulk transcriptomic datasets were utilized to ensure robust gene prioritization and generalizability. This methodological strategy culminated in the identification of a refined and reproducible 15-gene diagnostic panel. These genes were subsequently organized into biologically coherent modules through the application of protein-protein interaction (PPI) network clustering techniques. The resulting gene modules enhance mechanistic interpretation by aligning closely with well-characterized immune pathways and the pathophysiology of sepsis. To enhance the interpretability of identified gene modules, this thesis introduces a novel literature-informed pathway relevance scoring system, achieving a robust relevance score of approximately 0.70 for sepsis-specific pathways. Furthermore, unlike existing gene panels that often lack biological interpretability or sepsis specificity, our signature is distinguished by the fact that all genes are biologically interpretable and explicitly related to sepsis pathogenesis. Comprehensive validation in independent cohorts and single-cell transcriptomic analyses confirmed robust, immune cell-specific gene expression patterns. Benchmarking against established sepsis diagnostic signatures demonstrated superior accuracy and interpretability of our framework. Overall, this thesis provides a reproducible and immunologically informed approach to early sepsis diagnosis, leveraging advanced computational methods and rigorous biological validation, holding significant promise for clinical translation and personalized patient care.| File | Dimensione | Formato | |
|---|---|---|---|
|
Thesis_Tanya-Johari.pdf
accesso aperto
Dimensione
15.05 MB
Formato
Adobe PDF
|
15.05 MB | Adobe PDF | Visualizza/Apri |
È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/30646