Rare diseases are a group of about 7000 disorders so defined because of their low prevalence in the population, with less than 5 out of 10000 affected individuals. Among these diseases, about 80% have a genetic origin, being caused by DNA mutations, permanent changes in an individual genetic material. The remaining 20% (including allergies, infections, some autoimmune and degenerative disorders) are defined as multifactorial disorders as they result from a variety of factors such as environment, diet, habits and lifestyle. As rare diseases are so complex and heterogeneous, reaching a correct genetic diagnosis in a short period of time could become an odyssey; the poor resources in terms of treatments and therapies, the frequently chronic and/or disabling course of the disease and the large psychological and social burden for the patient and family members makes the disease’ management even more complicated. The growth of Next Generation Sequencing (NGS) technologies is drastically reducing the time needed to reach a genetic diagnosis, allowing the sequencing of the whole genome of an individual within a single test and enabling the all-in-one analysis of all the DNA changes. Within this context, the challenge is represented by the identification of a single causative DNA variant among the millions identified by sequencing. Bioinformatics has a crucial role in this process. The joint analysis of affected and unaffected family members of the patient (“family analysis”) allows to infer the variant inheritance pattern, helping genetic laboratories to discriminate potential pathogenic mutations from benign ones; thus, the integration of family information in the variant interpretation process allows a more accurate mutation classification. This thesis work, performed in collaboration with enGenome srl (a spin-off of the University of Pavia) aims at developing a family analysis algorithm to improve and expand the family analysis model implemented in eVai, the enGenome variant interpretation software. The newly developed functionality introduces dynamism in the analysis and the management of complex family configurations. This algorithm has been optimized and made reproducible and portable in any computational environment through containerization. This work contributes in a small part to the major clinical challenges of understanding the genetic mechanisms underlying rare diseases. Indeed, scientific research in this area is continuously and steadily advancing, with the goal of characterizing these diseases and leveraging new multidisciplinary approaches to guide the diagnosis and the development of targeted therapies.

Analisi familiare di mutazioni genetiche: un tool bioinformatico per inferire dinamicamente il pattern di ereditarietà. Le malattie rare sono un gruppo di circa 7000 patologie così definite per la loro bassa prevalenza nella popolazione, con meno di 5 affetti su 10000 individui. Nell’elenco corposo di queste malattie circa l’80% figura di origine genetica ed è causato da mutazioni del DNA, cambiamenti permanenti nel materiale genetico di un individuo. Il restante 20%, (tra cui allergie, infezioni, alcune malattie autoimmuni e degenerative) si definiscono multifattoriali, ossia derivano da svariati fattori: ambiente, abitudini alimentari, stili di vita. Poiché le malattie rare sono così numerose ed eterogenee, arrivare a una corretta diagnosi genetica in tempi brevi può diventare un’odissea; le scarse risorse in termini di trattamenti e terapie, il decorso spesso cronico e/o invalidante della malattia e il grande carico psicologico e sociale per il paziente e i familiari rendono la gestione della malattia ancora più complicata. Lo sviluppo delle tecnologie di Next Generation Sequencing (NGS) sta riducendo drasticamente il tempo necessario per ottenere una diagnosi genetica, consentendo il sequenziamento dell’intero genoma di un individuo in un unico test e permettendo l’analisi all-in-one di tutte le mutazioni del DNA. In questo contesto, la sfida è rappresentata dall’identificazione di una singola variante causale del DNA tra i milioni identificati dal sequenziamento. La bioinformatica ha un ruolo cruciale in questo processo. L’analisi congiunta dei membri affetti e non affetti della famiglia del paziente (“analisi familiare”) permette di dedurre il modello di ereditarietà della variante, aiutando i laboratori di genetica a discriminare le mutazioni potenzialmente patogene da quelle benigne; quindi, l’integrazione delle informazioni sulla famiglia nel processo di interpretazione delle varianti consente una classificazione più accurata della mutazione. Questo lavoro di tesi, svolto in collaborazione con enGenome srl (spin-off dell’Università di Pavia), mira a sviluppare un algoritmo di analisi familiare per migliorare ed espandere il modello di analisi familiare implementato in eVai, il software di interpretazione delle varianti di enGenome. La nuova funzionalità sviluppata introduce dinamismo nell’analisi e nella gestione di configurazioni familiari complesse. Questo algoritmo è stato ottimizzato e reso riproducibile e trasportabile in qualsiasi ambiente computazionale grazie alla containerizzazione. Questo lavoro contribuisce in piccola parte alle grandi sfide cliniche della comprensione dei meccanismi genetici alla base delle malattie rare. Infatti, la ricerca scientifica in questo settore è in continuo e costante progresso, con l’obiettivo di caratterizzare queste malattie e sfruttare nuovi approcci multidisciplinari per guidare la diagnosi e lo sviluppo di terapie mirate.

Family analysis of genetic mutations: a bioinformatic tool to dynamically infer inheritance pattern

BERARDELLI, SILVIA
2021/2022

Abstract

Rare diseases are a group of about 7000 disorders so defined because of their low prevalence in the population, with less than 5 out of 10000 affected individuals. Among these diseases, about 80% have a genetic origin, being caused by DNA mutations, permanent changes in an individual genetic material. The remaining 20% (including allergies, infections, some autoimmune and degenerative disorders) are defined as multifactorial disorders as they result from a variety of factors such as environment, diet, habits and lifestyle. As rare diseases are so complex and heterogeneous, reaching a correct genetic diagnosis in a short period of time could become an odyssey; the poor resources in terms of treatments and therapies, the frequently chronic and/or disabling course of the disease and the large psychological and social burden for the patient and family members makes the disease’ management even more complicated. The growth of Next Generation Sequencing (NGS) technologies is drastically reducing the time needed to reach a genetic diagnosis, allowing the sequencing of the whole genome of an individual within a single test and enabling the all-in-one analysis of all the DNA changes. Within this context, the challenge is represented by the identification of a single causative DNA variant among the millions identified by sequencing. Bioinformatics has a crucial role in this process. The joint analysis of affected and unaffected family members of the patient (“family analysis”) allows to infer the variant inheritance pattern, helping genetic laboratories to discriminate potential pathogenic mutations from benign ones; thus, the integration of family information in the variant interpretation process allows a more accurate mutation classification. This thesis work, performed in collaboration with enGenome srl (a spin-off of the University of Pavia) aims at developing a family analysis algorithm to improve and expand the family analysis model implemented in eVai, the enGenome variant interpretation software. The newly developed functionality introduces dynamism in the analysis and the management of complex family configurations. This algorithm has been optimized and made reproducible and portable in any computational environment through containerization. This work contributes in a small part to the major clinical challenges of understanding the genetic mechanisms underlying rare diseases. Indeed, scientific research in this area is continuously and steadily advancing, with the goal of characterizing these diseases and leveraging new multidisciplinary approaches to guide the diagnosis and the development of targeted therapies.
2021
Family analysis of genetic mutations: a bioinformatic tool to dynamically infer inheritance pattern
Analisi familiare di mutazioni genetiche: un tool bioinformatico per inferire dinamicamente il pattern di ereditarietà. Le malattie rare sono un gruppo di circa 7000 patologie così definite per la loro bassa prevalenza nella popolazione, con meno di 5 affetti su 10000 individui. Nell’elenco corposo di queste malattie circa l’80% figura di origine genetica ed è causato da mutazioni del DNA, cambiamenti permanenti nel materiale genetico di un individuo. Il restante 20%, (tra cui allergie, infezioni, alcune malattie autoimmuni e degenerative) si definiscono multifattoriali, ossia derivano da svariati fattori: ambiente, abitudini alimentari, stili di vita. Poiché le malattie rare sono così numerose ed eterogenee, arrivare a una corretta diagnosi genetica in tempi brevi può diventare un’odissea; le scarse risorse in termini di trattamenti e terapie, il decorso spesso cronico e/o invalidante della malattia e il grande carico psicologico e sociale per il paziente e i familiari rendono la gestione della malattia ancora più complicata. Lo sviluppo delle tecnologie di Next Generation Sequencing (NGS) sta riducendo drasticamente il tempo necessario per ottenere una diagnosi genetica, consentendo il sequenziamento dell’intero genoma di un individuo in un unico test e permettendo l’analisi all-in-one di tutte le mutazioni del DNA. In questo contesto, la sfida è rappresentata dall’identificazione di una singola variante causale del DNA tra i milioni identificati dal sequenziamento. La bioinformatica ha un ruolo cruciale in questo processo. L’analisi congiunta dei membri affetti e non affetti della famiglia del paziente (“analisi familiare”) permette di dedurre il modello di ereditarietà della variante, aiutando i laboratori di genetica a discriminare le mutazioni potenzialmente patogene da quelle benigne; quindi, l’integrazione delle informazioni sulla famiglia nel processo di interpretazione delle varianti consente una classificazione più accurata della mutazione. Questo lavoro di tesi, svolto in collaborazione con enGenome srl (spin-off dell’Università di Pavia), mira a sviluppare un algoritmo di analisi familiare per migliorare ed espandere il modello di analisi familiare implementato in eVai, il software di interpretazione delle varianti di enGenome. La nuova funzionalità sviluppata introduce dinamismo nell’analisi e nella gestione di configurazioni familiari complesse. Questo algoritmo è stato ottimizzato e reso riproducibile e trasportabile in qualsiasi ambiente computazionale grazie alla containerizzazione. Questo lavoro contribuisce in piccola parte alle grandi sfide cliniche della comprensione dei meccanismi genetici alla base delle malattie rare. Infatti, la ricerca scientifica in questo settore è in continuo e costante progresso, con l’obiettivo di caratterizzare queste malattie e sfruttare nuovi approcci multidisciplinari per guidare la diagnosi e lo sviluppo di terapie mirate.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/15216