Sviluppo di metodi per l'ottimizzazione dell'annotazione fenotipica e delle associazioni gene-malattia nella prioritizzazione delle varianti genetiche

Despite recent advances in sequencing technologies and the growing availability of automated tools for interpreting genomic variants, correctly identifying the causative mutation in patients with rare diseases remains a significant challenge. A key piece of information to guide candidate gene identification in diagnostics is the detailed description of patient’s phenotypes, which can be compared with known sets of phenotypes associated with specific genes to construct phenotypic similarity metrics. These metrics allow genes to be ranked based on their ability to explain the observed phenotypes in the patient. Often, these metrics rely on standardized terms from the Human Phenotype Ontology, though they may suffer from limitations related to the heterogeneity and terminological variability of available phenotypic data. In this context, this thesis, developed in collaboration with EnGenome, aims to improve the phenotypic score which is a feature of a more complex Machine Learning model called eVai for variant prioritization. The work was divided into two phases: improving the phenotypic score by updating resources and simplifying similar phenotypic representations, and streamlining gene-disease associations. In the first step, several strategies were implemented to enhance the comparison between the patient's phenotypic terms and those associated with genes. These included updating the omics resources used by the method, semantic expansion of terms using the HPO ontology, clustering of similar concepts, and reducing terminological redundancy by excluding hierarchically related terms. The modifications were tested on two reference datasets, and the results showed a marginal improvement in the phenotypic score for identifying the causative gene, confirming the robustness of EnGenome's original model. Updating the phenotypic resources describing genes and introducing new gene-phenotype associations proved particularly impactful on the final ranking, highlighting how access to more recent phenotypic knowledge can improve the accuracy of genomic interpretation. The second step addressed the issue of redundancy in gene-disease associations by proposing a clustering-based approach for grouping clinically similar conditions associated with genes. In many cases, a single gene is linked to multiple diseases that share highly similar phenotypic spectra. This increases the number of potential diagnoses to consider for each identified variant, making the interpretation process more complex and fragmented. To achieve these groupings, various embedding methods were tested to represent phenotypes in a vector space, combined with semantic similarity metrics. The resulting clusters were then refined based on biological and semantic criteria, taking into account consistency with inheritance patterns, overlap of phenotypic spectra, and relevant lexical distinctions useful for separating clinically distinct diseases with similar names. Using this approach, the initial 10.954 gene-disease associations were grouped into 8.867 clusters of similar conditions across available genes. Overall, the results of this thesis work have the potential to enhance the use of phenotypic information in the eVai platform and simplify clinical associations in the context of genomic diagnostics.

Nonostante i recenti progressi nelle tecnologie di sequenziamento e la crescente disponibilità di strumenti automatizzati per l'interpretazione delle varianti genomiche, identificare correttamente la mutazione causativa nei pazienti affetti da malattie rare rimane una sfida significativa. Un'informazione fondamentale per guidare l'identificazione del gene candidato nella diagnosi è la descrizione dettagliata dei fenotipi del paziente che possono essere confrontati con gli insiemi di fenotipi associati a specifici geni, per costruire metriche di similarità fenotipica. Tali metriche permettono di classificare i geni in base alla loro capacità di spiegare i fenotipi osservati nel paziente. Spesso, queste metriche si basano sull'uso di termini standardizzati riportati nell'Human Phenotype Ontology, nonostante possono soffrire di alcune limitazioni legate all'eterogeneità e alla variabilità terminologica dei dati fenotipici disponibili. In questo contesto, la presente tesi, realizzata in collaborazione con l'azienda EnGenome, si è proposta di migliorare lo score fenotipico, ovvero una feature di un modello più complesso di Machine Learning per la prioritizzazione delle varianti chiamato eVai. Il lavoro si è articolato in due fasi: il miglioramento dello score fenotipico tramite l'aggiornamento delle risorse e la semplificazione delle rappresentazioni fenotipiche simili, e la semplificazione delle associazioni gene-malattia. Nel primo step, sono state implementate diverse strategie per migliorare il confronto tra i termini fenotipici del paziente e quelli associati ai geni tra cui l'aggiornamento delle risorse omiche utilizzate dal metodo, l’espansione semantica dei termini tramite l'ontologia HPO, la clusterizzazione di concetti simili e la riduzione della ridondanza terminologica attraverso l’esclusione di termini gerarchicamente correlati. Le modifiche apportate sono state testate su due dataset di riferimento e i risultati hanno mostrato un miglioramento marginale dello score fenotipico nell'identificare il gene causativo, confermando così la robustezza del modello originale di EnGenome. L’aggiornamento delle risorse fenotipiche che descrivono i geni e l’introduzione di nuove associazioni gene-fenotipo si sono dimostrati particolarmente impattanti sul ranking finale, evidenziando come l’accesso a conoscenze fenotipiche più recenti possa migliorare l’accuratezza dell’interpretazione genomica. Il secondo step ha affrontato il problema della ridondanza nelle associazioni gene-malattia proponendo un approccio basato sulla clusterizzazione delle condizioni cliniche associate ai geni. In numerosi casi, un singolo gene è collegato a più patologie che condividono uno spettro fenotipico molto simile. Questo comporta un aumento del numero di potenziali diagnosi da considerare per ogni variante identificata, rendendo il processo di interpretazione più complesso e frammentato. Per ottenere tali raggruppamenti, sono stati sperimentati diversi metodi di embedding per rappresentare i fenotipi in uno spazio vettoriale, abbinati a metriche di similarità semantica. I cluster ottenuti sono stati successivamente affinati sulla base di criteri biologici e semantici, tenendo conto della coerenza con la modalità di trasmissione, della sovrapposizione degli spettri fenotipici e di distinzioni lessicali rilevanti utili a separare patologie clinicamente diverse ma con denominazione simile. Mediante questo approccio, è stato possibile raggruppare le 10.954 associazioni gene-malattia di partenza in 8.867 cluster di condizioni simili sui geni disponibili. Nel complesso, i risultati ottenuti in questo lavoro di tesi hanno la potenzialità di migliorare l'utilizzo dell'informazione fenotipica nella piattaforma eVai e di semplificare le associazioni cliniche nel contesto della diagnostica genomica.