Matrix-Assisted Laser Desorption/Ionisation Mass Spectrometry Imaging (MALDI-MSI) is an emerging omics technique that allows for the simultaneous and label-free detection of a variety of analytes, including peptides, in their tissue localisation. It combines classical histology and molecular analysis, producing highly dimensional data, that require the development of advanced computational methods to deepen our knowledge on relevant biological processes, such as those involved in reproductive biology. The mammalian ovary is a highly dynamic organ: from puberty, at each ovarian cycle, a group of pre-antral follicles is recruited and grows through the antral phase up to the pre- ovulatory stage, until ovulation of mature oocytes. The correct follicle growth and acquisition of oocyte developmental competence are strictly related to a continuous, but still poorly understood, molecular crosstalk between the gamete and the surrounding follicle cells. In this thesis, advanced clustering and visual analytics approaches are tested on MALDI- MSI data for the in-situ identification of the protein signature of growing follicles, during different stages of folliculogenesis. Specifically, we first analysed MALDI-MSI spectral data from mouse ovary with dimensionality reduction approaches, including Principal Component Analysis (PCA) and its non-linear variant Kernel-PCA, t-distributed Stochastic Neighbour Embedding (t-SNE), and Uniform Manifold Approximation and Projection (UMAP). Then, a framework based on Topological Data Analysis (TDA) Mapper was employed to detect spectral and spatial related clusters among data. TDA is an unsupervised topological approach that aims to get high-level understanding of the data structure, and it helped us to pinpoint protein patterns in clusters containing different follicle types, through advanced analyses of the resulting graph. Lastly, the inspection of the differentially expressed proteins and the results of enrichment analyses across different follicle types highlighted putative factors that drive follicle growth.

Machine Learning per l'analisi non supervisionata della follicologenesi ovarica basata su immagini di spettrometria di massa. Matrix-Assisted Laser Desorption/Ionisation Mass Spectrometry Imaging (MALDI-MSI) è una nuova tecnica di analisi molecolare che permette l’identificazione in-situ di una grande varietà di analiti, tra cui peptidi, in maniera simultanea e label-free. Questa tecnica combina l’istologia classica con l’analisi molecolare, generando dati ad alta dimensionalità, la cui analisi richiede l’utilizzo di metodi computazionali avanzati per poter aumentare la nostra conoscenza su problemi biologici, come quelli relativi alla biologia dell’ovario. L’ovario è un organo estremamente dinamico: a partire dalla pubertà, ad ogni ciclo ovarico, viene reclutato un gruppo di follicoli pre-antrali che crescono, passando per la fase antrale e raggiungendo lo stadio pre-ovulatorio, in cui rimangono fino all’ovulazione dell’oocita maturo. La corretta crescita follicolare e l’acquisizione da parte dell’oocita della competenza evolutiva sono legate a un continuo crosstalk molecolare tra il gamete e le cellule follicolari che lo circondano. Tale processo non è ancora conosciuto a fondo nella sua interezza. In questo progetto di tesi sono stati utilizzati approcci di visual analytic e di clustering avanzato per l’analisi dei dati ottenuti da esperimenti MALDI-MSI a partire da ovaio di topo, con l’obiettivo di identificare pattern proteici nei diversi stadi della follicologenesi ovarica. In particolare, i dati spettrali ottenuti con MALDI-MSI vengono analizzati con approcci di riduzione della dimensionalità, tra cui Principal Component Analysis (PCA) e la sua variante non lineare kernel-PCA, t-distributed Stochastic Neighbour Embedding (t-SNE), e Uniform Manifold Approximation and Projection (UMAP). In seguito, è stato sviluppato un framework di analisi che utilizza l’algoritmo Topological Data Analysis (TDA) Mapper, un approccio non supervisionato che mira ad ottenere un’interpretazione ad alto livello della struttura dei dati. L’algoritmo TDA è stato utilizzato per delineare cluster sulla base dell’informazione spettrale e spaziale relativa ai dati acquisiti tramite MALDI-MSI, identificando dei pattern di proteine specifiche all’interno di cluster contenenti dati relativi a distinte fasi di crescita follicolare. Infine, le proteine differenzialmente espresse e i risultati di analisi di enrichment su dati relativi a diverse tipologie follicolari hanno evidenziato una serie di fattori fondamentali per la crescita del follicolo.

Unsupervised Machine Learning strategies for the analysis of the ovarian folliculogenesis based on Mass Spectrometry Imaging proteomics

CAMPI, GIULIA
2019/2020

Abstract

Matrix-Assisted Laser Desorption/Ionisation Mass Spectrometry Imaging (MALDI-MSI) is an emerging omics technique that allows for the simultaneous and label-free detection of a variety of analytes, including peptides, in their tissue localisation. It combines classical histology and molecular analysis, producing highly dimensional data, that require the development of advanced computational methods to deepen our knowledge on relevant biological processes, such as those involved in reproductive biology. The mammalian ovary is a highly dynamic organ: from puberty, at each ovarian cycle, a group of pre-antral follicles is recruited and grows through the antral phase up to the pre- ovulatory stage, until ovulation of mature oocytes. The correct follicle growth and acquisition of oocyte developmental competence are strictly related to a continuous, but still poorly understood, molecular crosstalk between the gamete and the surrounding follicle cells. In this thesis, advanced clustering and visual analytics approaches are tested on MALDI- MSI data for the in-situ identification of the protein signature of growing follicles, during different stages of folliculogenesis. Specifically, we first analysed MALDI-MSI spectral data from mouse ovary with dimensionality reduction approaches, including Principal Component Analysis (PCA) and its non-linear variant Kernel-PCA, t-distributed Stochastic Neighbour Embedding (t-SNE), and Uniform Manifold Approximation and Projection (UMAP). Then, a framework based on Topological Data Analysis (TDA) Mapper was employed to detect spectral and spatial related clusters among data. TDA is an unsupervised topological approach that aims to get high-level understanding of the data structure, and it helped us to pinpoint protein patterns in clusters containing different follicle types, through advanced analyses of the resulting graph. Lastly, the inspection of the differentially expressed proteins and the results of enrichment analyses across different follicle types highlighted putative factors that drive follicle growth.
2019
Unsupervised Machine Learning strategies for the analysis of the ovarian folliculogenesis based on Mass Spectrometry Imaging proteomics
Machine Learning per l'analisi non supervisionata della follicologenesi ovarica basata su immagini di spettrometria di massa. Matrix-Assisted Laser Desorption/Ionisation Mass Spectrometry Imaging (MALDI-MSI) è una nuova tecnica di analisi molecolare che permette l’identificazione in-situ di una grande varietà di analiti, tra cui peptidi, in maniera simultanea e label-free. Questa tecnica combina l’istologia classica con l’analisi molecolare, generando dati ad alta dimensionalità, la cui analisi richiede l’utilizzo di metodi computazionali avanzati per poter aumentare la nostra conoscenza su problemi biologici, come quelli relativi alla biologia dell’ovario. L’ovario è un organo estremamente dinamico: a partire dalla pubertà, ad ogni ciclo ovarico, viene reclutato un gruppo di follicoli pre-antrali che crescono, passando per la fase antrale e raggiungendo lo stadio pre-ovulatorio, in cui rimangono fino all’ovulazione dell’oocita maturo. La corretta crescita follicolare e l’acquisizione da parte dell’oocita della competenza evolutiva sono legate a un continuo crosstalk molecolare tra il gamete e le cellule follicolari che lo circondano. Tale processo non è ancora conosciuto a fondo nella sua interezza. In questo progetto di tesi sono stati utilizzati approcci di visual analytic e di clustering avanzato per l’analisi dei dati ottenuti da esperimenti MALDI-MSI a partire da ovaio di topo, con l’obiettivo di identificare pattern proteici nei diversi stadi della follicologenesi ovarica. In particolare, i dati spettrali ottenuti con MALDI-MSI vengono analizzati con approcci di riduzione della dimensionalità, tra cui Principal Component Analysis (PCA) e la sua variante non lineare kernel-PCA, t-distributed Stochastic Neighbour Embedding (t-SNE), e Uniform Manifold Approximation and Projection (UMAP). In seguito, è stato sviluppato un framework di analisi che utilizza l’algoritmo Topological Data Analysis (TDA) Mapper, un approccio non supervisionato che mira ad ottenere un’interpretazione ad alto livello della struttura dei dati. L’algoritmo TDA è stato utilizzato per delineare cluster sulla base dell’informazione spettrale e spaziale relativa ai dati acquisiti tramite MALDI-MSI, identificando dei pattern di proteine specifiche all’interno di cluster contenenti dati relativi a distinte fasi di crescita follicolare. Infine, le proteine differenzialmente espresse e i risultati di analisi di enrichment su dati relativi a diverse tipologie follicolari hanno evidenziato una serie di fattori fondamentali per la crescita del follicolo.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/12323