Currently Bioinformatics is a strong and rapidly growing sector. A decade has passed since the completion of the genome project, the current situation brings forth a problem, the enormous amount of data available, this is called “bottleneck”: much data, few means. Research facilities and consortia all over the world share information to allow a faster and more detailed analysis of the data. Thus, the aim of the present work has been to develop and validate a new pipeline for NGS data which will analyse the gathered data in an automized and efficient way, integrating open software tools and software achieving an improvement in the results compared to standard workflow integrated in the sequentiatior's software; specifically, the suggested pipeline has been optimized on the data obtained during target sequencing by Illumina MiSeq technology at the Centre for Inherited Cardiovascular Diseases in the Policlinico San Matteo, directed by Prof. Eloisa Arbustini. The current pipeline has been developed focusing on the post-processing of the alignment, variant calling, recalibration and annotation, introducing an innovative family-based analysis for the identification of rare variants. On the other hand, concerning the variant annotation step, the focus wasn't on the mere annotation but a variants classification system has been developed following the standard guidelines given by ACMG (Association for Molecular Pathology) which, at the moment, represent the gold standard to obtian a pathogenic classification of the variants. Finally, exploiting the analysed data for the validation and the optimization, a highly confidential internal database has been developed which will allow the gathering of useful data for the transversal analysis of the patients in care. It has to be taken into consideration that the current work's ultimate purpose is a direct comparison on the patient.

La bioinformatica è, attualmente, un settore in crescente e forte sviluppo. Passata ormai una decade dal termine del progetto genoma, la situazione attuale ci pone dinanzi ad un problema, ovvero l'enorme quantitativo di dati a disposizione, ciò che viene definito come "bottleneck": molti dati, pochi mezzi. Centri di ricerca e consorzi di tutto il mondo condividono dati ed informazioni per consentire una tanto più dettagliata quanto più rapida analisi dei dati. Per questo motivo, lo scopo del presente lavoro è stato quello di sviluppare e validare una nuova pipeline per NGS che consenta di analizzare i dati raccolti in maniera automatizzata ed efficace, integrando tools e software open source con conseguente miglioramento dei risultati rispetto al workflow standard integrato nel software del sequenziatore; nello specifico, la pipeline qui proposta è stata ottimizzata sui dati ottenuti tramite target sequencing da tecnologia Illumina MiSeq presso il Centro di Malattie Genetiche Cardiovascolari del Policlinico San Matteo, diretto dalla Prof. Eloisa Arbustini. La presente pipeline è stata sviluppata focalizzando l'attenzione sul post-processing dell'allineamento, variant calling, ricalibrazione ed annotazione, introducendo un'innovativa analisi family-based per l'individuazione di varianti rare. Per quanto concerne lo step di variant annotation, invece, non ci si è soffermati alla mera annotazione bensì è stato sviluppato un sistema di classificazione delle varianti seguendo le linee standard fornite dall'ACMG (American College of Medical Genetics and Genomics) in collaborazione con l'AMG (Association for Molecular Pathology) le quali, attualmente, rappresentano lo standard gold per ottenere una classificazione patogenica delle varianti. Infine, sfruttando i dati analizzati per la validazione e l'ottimizzazione, è stato sviluppato un database interno ad alta confidenza che consenta di accumulare dati utili per l'analisi trasversale dei pazienti in cura. Va tenuto infatti in considerazione che il presente lavoro ha come scopo ultimo un riscontro diagnostico diretto sul paziente.

Dal variant calling all’interpretazione delle varianti: definizione e validazione di una pipeline per NGS per l'utilizzo nella pratica clinica

DI GIOVANNANTONIO, MATTEO
2014/2015

Abstract

Currently Bioinformatics is a strong and rapidly growing sector. A decade has passed since the completion of the genome project, the current situation brings forth a problem, the enormous amount of data available, this is called “bottleneck”: much data, few means. Research facilities and consortia all over the world share information to allow a faster and more detailed analysis of the data. Thus, the aim of the present work has been to develop and validate a new pipeline for NGS data which will analyse the gathered data in an automized and efficient way, integrating open software tools and software achieving an improvement in the results compared to standard workflow integrated in the sequentiatior's software; specifically, the suggested pipeline has been optimized on the data obtained during target sequencing by Illumina MiSeq technology at the Centre for Inherited Cardiovascular Diseases in the Policlinico San Matteo, directed by Prof. Eloisa Arbustini. The current pipeline has been developed focusing on the post-processing of the alignment, variant calling, recalibration and annotation, introducing an innovative family-based analysis for the identification of rare variants. On the other hand, concerning the variant annotation step, the focus wasn't on the mere annotation but a variants classification system has been developed following the standard guidelines given by ACMG (Association for Molecular Pathology) which, at the moment, represent the gold standard to obtian a pathogenic classification of the variants. Finally, exploiting the analysed data for the validation and the optimization, a highly confidential internal database has been developed which will allow the gathering of useful data for the transversal analysis of the patients in care. It has to be taken into consideration that the current work's ultimate purpose is a direct comparison on the patient.
2014
From variant calling to variant interpretation: development and validation of a NGS pipeline for clinical practice
La bioinformatica è, attualmente, un settore in crescente e forte sviluppo. Passata ormai una decade dal termine del progetto genoma, la situazione attuale ci pone dinanzi ad un problema, ovvero l'enorme quantitativo di dati a disposizione, ciò che viene definito come "bottleneck": molti dati, pochi mezzi. Centri di ricerca e consorzi di tutto il mondo condividono dati ed informazioni per consentire una tanto più dettagliata quanto più rapida analisi dei dati. Per questo motivo, lo scopo del presente lavoro è stato quello di sviluppare e validare una nuova pipeline per NGS che consenta di analizzare i dati raccolti in maniera automatizzata ed efficace, integrando tools e software open source con conseguente miglioramento dei risultati rispetto al workflow standard integrato nel software del sequenziatore; nello specifico, la pipeline qui proposta è stata ottimizzata sui dati ottenuti tramite target sequencing da tecnologia Illumina MiSeq presso il Centro di Malattie Genetiche Cardiovascolari del Policlinico San Matteo, diretto dalla Prof. Eloisa Arbustini. La presente pipeline è stata sviluppata focalizzando l'attenzione sul post-processing dell'allineamento, variant calling, ricalibrazione ed annotazione, introducendo un'innovativa analisi family-based per l'individuazione di varianti rare. Per quanto concerne lo step di variant annotation, invece, non ci si è soffermati alla mera annotazione bensì è stato sviluppato un sistema di classificazione delle varianti seguendo le linee standard fornite dall'ACMG (American College of Medical Genetics and Genomics) in collaborazione con l'AMG (Association for Molecular Pathology) le quali, attualmente, rappresentano lo standard gold per ottenere una classificazione patogenica delle varianti. Infine, sfruttando i dati analizzati per la validazione e l'ottimizzazione, è stato sviluppato un database interno ad alta confidenza che consenta di accumulare dati utili per l'analisi trasversale dei pazienti in cura. Va tenuto infatti in considerazione che il presente lavoro ha come scopo ultimo un riscontro diagnostico diretto sul paziente.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/24067