L'analisi delle sequenze genomiche si sta progressivamente rivelando un potente strumento per studiare e decodificare la causa e l'evoluzione di molte patologie. La nascita delle tecnologie di Next Generation Sequencing (NGS) ha drasticamente ridotto i tempi e i costi richiesti per sequenziare l'intero genoma umano, da un lato incentivando fortemente la ricerca genomica in questa direzione, dall'altro assegnando un ruolo centrale alla bioinformatica nella gestione di un cosiddetto problema di Big Data. L'identificazione di varianti genetiche a partire da dati NGS rappresenta ad oggi una delle principali sfide affontate: l'implementazione di algoritmi di Variant Calling è accompagnata dalla necessità di introdurre strumenti capaci di gestire complessi flussi di lavoro processando parallelamente più campioni e di conseguenza un enorme quantità di dati. Seguendo questa direzione il lavoro di tesi qui presentato è stato incentrato sull'analisi di una delle varianti strutturali più frequenti a livello del genoma umano, il Copy Number Variation, la cui correlazione con l'insorgenza e l'evoluzione di diverse patologie e di alcune forme ereditarie di cancro è stata ampiamente verificata. Nonostante le CNVs assumano una rilevanza clinica notevole, ad oggi non esiste una procedura standardizzata finalizzata alla loro identificazione. Il lavoro svolto ha permesso di assemblare una pipeline di analisi robusta e automatizzata che è stata sviluppata utilizzando alcuni algoritmi bioinformatici selezionati dalla letteratura a disposizione con l'obiettivo di individuare le CNVs con una risoluzione a livello di singolo esone. Per lo sviluppo della pipeline sono stati utilizzati strumenti software per la gestione del flusso di lavoro (Cosmos), per la distribuzione delle risorse computazionali (Sun Grid Engine) e per la portabilità dell'analisi (Docker). Per valutare le performance degli algoritmi bioinformatici selezionati, è stato realizzato uno studio comparativo processando un insieme di campioni appartenenti al dataset pubblico ICR639 che contiene 74 CNVs validate con tecniche di laboratorio ortogonali, per un totale di 359 esoni coinvolti. Sulla base dei risultati ottenuti la pipeline è stata ottimizzata in modo da identificare la variante strutturale di interesse a livello esonico con alta sensibilità (99.44%), mantenendo allo stesso tempo ridotto il False Discovery Rate (39.39%).

Studio comparativo di algoritmi per l'identificazione di Copy Number Variant a partire da dati NGS e implementazione della relativa pipeline bioinformatica

DE PAOLI, FEDERICA
2017/2018

Abstract

L'analisi delle sequenze genomiche si sta progressivamente rivelando un potente strumento per studiare e decodificare la causa e l'evoluzione di molte patologie. La nascita delle tecnologie di Next Generation Sequencing (NGS) ha drasticamente ridotto i tempi e i costi richiesti per sequenziare l'intero genoma umano, da un lato incentivando fortemente la ricerca genomica in questa direzione, dall'altro assegnando un ruolo centrale alla bioinformatica nella gestione di un cosiddetto problema di Big Data. L'identificazione di varianti genetiche a partire da dati NGS rappresenta ad oggi una delle principali sfide affontate: l'implementazione di algoritmi di Variant Calling è accompagnata dalla necessità di introdurre strumenti capaci di gestire complessi flussi di lavoro processando parallelamente più campioni e di conseguenza un enorme quantità di dati. Seguendo questa direzione il lavoro di tesi qui presentato è stato incentrato sull'analisi di una delle varianti strutturali più frequenti a livello del genoma umano, il Copy Number Variation, la cui correlazione con l'insorgenza e l'evoluzione di diverse patologie e di alcune forme ereditarie di cancro è stata ampiamente verificata. Nonostante le CNVs assumano una rilevanza clinica notevole, ad oggi non esiste una procedura standardizzata finalizzata alla loro identificazione. Il lavoro svolto ha permesso di assemblare una pipeline di analisi robusta e automatizzata che è stata sviluppata utilizzando alcuni algoritmi bioinformatici selezionati dalla letteratura a disposizione con l'obiettivo di individuare le CNVs con una risoluzione a livello di singolo esone. Per lo sviluppo della pipeline sono stati utilizzati strumenti software per la gestione del flusso di lavoro (Cosmos), per la distribuzione delle risorse computazionali (Sun Grid Engine) e per la portabilità dell'analisi (Docker). Per valutare le performance degli algoritmi bioinformatici selezionati, è stato realizzato uno studio comparativo processando un insieme di campioni appartenenti al dataset pubblico ICR639 che contiene 74 CNVs validate con tecniche di laboratorio ortogonali, per un totale di 359 esoni coinvolti. Sulla base dei risultati ottenuti la pipeline è stata ottimizzata in modo da identificare la variante strutturale di interesse a livello esonico con alta sensibilità (99.44%), mantenendo allo stesso tempo ridotto il False Discovery Rate (39.39%).
2017
Comparison of different Copy Number Variant detection algorithms for ngs-based data and implementation of its bioinformatic pipeline
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/24757