Chronic Kidney Disease affects hundreds of millions of people worldwide. If not adequately treated, it can rapidly lead to complete renal failure and aggravate coexisting comorbidities such as cardiovascular diseases, hypertension, and diabetes. The Salford Royal NHS Foundation Trust gathered a cohort of patients to investigate the behaviour of their disease activity. In fact, patients can be stable or can experiment an intermediate or rapid progression towards renal failure. Serum samples from the cohort were analysed by SWATH-MS by the Stoller Biomarker Discovery Centre to compose a dataset of detected and quantified proteins for each patient. The analysis of these proteomic data is aimed at the identification of biomarkers to discriminate between different disease activity behaviours (stable/rapid) through the implementation of a machine learning pipeline. Furthermore, Topological Data Analysis was performed to observe the shape of data and search for interesting sub-phenotypes. The evaluation of SWATH-MS data’s missingness has been another focal point: the quest for an optimal strategy to handle missing values has been carried out both in a qualitative way, with the implementation of the OptiMissP dashboard, and in quantitative way, observing the changes in the machine learning pipeline’s performances.
Analisi di dati di proteomica: gestione dei dati mancanti e predizione dello stato di progressione nel caso di malattia renale cronica. Le malattie croniche renali affliggono centinaia di milioni di persone in tutto il mondo. Se non adeguatamente curate, possono rapidamente portare all’insufficienza renale e aggravare comorbidità come ipertensione, malattie cardiovascolari e diabete. Il Salford Royal NHS Foundation Trust ha raccolto una coorte di pazienti per investigare il fenomeno di progressione della malattia. Infatti, i pazienti possono essere stabili o avere un decorso rapido o dalla velocità intermedia verso l’insufficienza renale. Lo Stoller Biomarker Discovery Centre ha analizzato i campioni di plasma dei pazienti tramite SWATH-MS, raccogliendone le misurazioni in un dataset contenente l’intensità di 899 proteine plasmatiche per ogni paziente. La tesi ha riguardato l’analisi dei dati proteici per l’identificazione di biomarcatori in grado di discriminare lo stato di attività della malattia dei pazienti: questo è avvenuto tramite l’implementazione di una pipeline di machine learning. Inoltre, grazie alla Topological Data Analysis, è stato possibile indagare la forma dei dati e cercare dei fenotipi secondari. La valutazione di una strategia ottimale per la gestione dei dati mancanti è stato un altro punto focale, portato avanti tramite un metodo qualitativo, con l’implementazione di una dashboard chiamata OptiMissP, e un metodo quantitativo, tramite il paragone dei valori di performance della pipeline di machine learning.
Proteomic data analysis: missingness evaluation and disease activity discrimination in Chronic Kidney Disease
ARIOLI, ANGELICA
2018/2019
Abstract
Chronic Kidney Disease affects hundreds of millions of people worldwide. If not adequately treated, it can rapidly lead to complete renal failure and aggravate coexisting comorbidities such as cardiovascular diseases, hypertension, and diabetes. The Salford Royal NHS Foundation Trust gathered a cohort of patients to investigate the behaviour of their disease activity. In fact, patients can be stable or can experiment an intermediate or rapid progression towards renal failure. Serum samples from the cohort were analysed by SWATH-MS by the Stoller Biomarker Discovery Centre to compose a dataset of detected and quantified proteins for each patient. The analysis of these proteomic data is aimed at the identification of biomarkers to discriminate between different disease activity behaviours (stable/rapid) through the implementation of a machine learning pipeline. Furthermore, Topological Data Analysis was performed to observe the shape of data and search for interesting sub-phenotypes. The evaluation of SWATH-MS data’s missingness has been another focal point: the quest for an optimal strategy to handle missing values has been carried out both in a qualitative way, with the implementation of the OptiMissP dashboard, and in quantitative way, observing the changes in the machine learning pipeline’s performances.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/22739