L'introduzione della tecnica di Next Generation Sequencing ha favorito il progresso della ricerca nell'ambito delle malattie genetiche, trovando largo impiego nella routine diagnostica. Parallelamente, però, ha anche introdotto nuove variabili da considerare per interpretare correttamente il risultato ottenuto dagli strumenti per NGS, quali coverage, qualità e rate di falsi positivi. L'obiettivo del lavoro di tesi, svolto presso il Centro Malattie Genetiche Cardiovascolari dell'I.R.C.C.S fondazione Policlinico "San Matteo" di Pavia, è lo sviluppo e la validazione di una pipeline per analisi di dati, ottenuti con la piattaforma 454 Roche GS Junior, utilizzando un protocollo basato su ampliconi, per identificare alterazioni ereditarie nei geni BRCA1 e BRCA2. A livello clinico la presenza di varianti patologiche in questi geni indica la predisposizione del paziente allo sviluppo dei tumori della mammella e dell'ovaio. La pipeline è suddivisibile in 3 steps principali: generazione delle sequenze, processamento e interpretazione dei risultati. Per il primo step è stata utilizzata la piattaforma open-source Galaxy, effettuando la conversione del file di output della run (.sff) in un formato più comunemente usato (.fastq), il riconoscimento e divisione dei diversi campioni delle reads sequenziate (demultiplexing) e la rimozione delle parte sequenziate non di interesse per il risultato (trimming di indici). E' stato inoltre necessario sviluppare, in Matlab, un tool per permettere il trimming dei primers, con la relativa interfaccia grafica. Per il secondo step, che comprende l'allineamento delle reads e la chiamata delle varianti, si è proceduto simulando in silico, mediante il software Grinder, gli ampliconi per BRCA1 e BRCA2, al fine di scegliere il tool di allineamento. La chiamata della variant (variant calling) è stata effettuata unendo i risultati dei tool Varscan e GATK, filtrando le varianti in base alla loro frequenza. Per il terzo step è stato utilizzato il tool Variant Effect Predictor di Ensembl. La pipeline è stata validata su 48 campioni, confermando le stesse varianti ottenute mediate il software di analisi Roche Ava v2.7 e individuandone di nuove, permettendo di automatizzare il workflow di analisi e di ottenere gli output nei formati comunemente utilizzati.

Sviluppo e validazione di una pipeline NGS per i test genetici su BRCA1 e BRCA2 con piattaforma GS Junior 454.

DI NANNI, NOEMI
2014/2015

Abstract

L'introduzione della tecnica di Next Generation Sequencing ha favorito il progresso della ricerca nell'ambito delle malattie genetiche, trovando largo impiego nella routine diagnostica. Parallelamente, però, ha anche introdotto nuove variabili da considerare per interpretare correttamente il risultato ottenuto dagli strumenti per NGS, quali coverage, qualità e rate di falsi positivi. L'obiettivo del lavoro di tesi, svolto presso il Centro Malattie Genetiche Cardiovascolari dell'I.R.C.C.S fondazione Policlinico "San Matteo" di Pavia, è lo sviluppo e la validazione di una pipeline per analisi di dati, ottenuti con la piattaforma 454 Roche GS Junior, utilizzando un protocollo basato su ampliconi, per identificare alterazioni ereditarie nei geni BRCA1 e BRCA2. A livello clinico la presenza di varianti patologiche in questi geni indica la predisposizione del paziente allo sviluppo dei tumori della mammella e dell'ovaio. La pipeline è suddivisibile in 3 steps principali: generazione delle sequenze, processamento e interpretazione dei risultati. Per il primo step è stata utilizzata la piattaforma open-source Galaxy, effettuando la conversione del file di output della run (.sff) in un formato più comunemente usato (.fastq), il riconoscimento e divisione dei diversi campioni delle reads sequenziate (demultiplexing) e la rimozione delle parte sequenziate non di interesse per il risultato (trimming di indici). E' stato inoltre necessario sviluppare, in Matlab, un tool per permettere il trimming dei primers, con la relativa interfaccia grafica. Per il secondo step, che comprende l'allineamento delle reads e la chiamata delle varianti, si è proceduto simulando in silico, mediante il software Grinder, gli ampliconi per BRCA1 e BRCA2, al fine di scegliere il tool di allineamento. La chiamata della variant (variant calling) è stata effettuata unendo i risultati dei tool Varscan e GATK, filtrando le varianti in base alla loro frequenza. Per il terzo step è stato utilizzato il tool Variant Effect Predictor di Ensembl. La pipeline è stata validata su 48 campioni, confermando le stesse varianti ottenute mediate il software di analisi Roche Ava v2.7 e individuandone di nuove, permettendo di automatizzare il workflow di analisi e di ottenere gli output nei formati comunemente utilizzati.
2014
Development and validation of a pipeline for NGS genetic testing on BRCA1 and BRCA2 genes with Roche GS Junior 454 platform.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/21573