Named Entity Recognition e standardizzazione di varianti genetiche per la generazione automatica di sintesi di letteratura scientifica in VarChat

The analysis and interpretation of genetic variants is essential in the context of biomedical research and clinical practice. However, the vast amount of data contained in the scientific literature represents a challenge for the automatic retrieval and annotation of information on this topic. In this work, we propose an optimization of VarChat (varchat.engenome.com), an open-access platform based on generative artificial intelligence, to improve the extraction and processing of information on genetic variants in the texts of open-access scientific articles. The work was carried out in collaboration with the enGenome team, a spin-off of the University of Pavia, which developed VarChat. The current implementation of VarChat relies on a combination of external services for the retrieval of scientific articles related to a single genetic variant, which limits its flexibility and scalability. A genetic variant can be represented with different, often non-standardized nomenclatures, making it very complex to associate a variant with an article, as demonstrated by the high annotation error rate of the best available public tools. To overcome current limitations and develop a methodology generalizable to other text types, the present work aims to develop a method of retrieving information from the literature associated with a genetic variant based on Named Entity Recognition (NER) and Retrieval-Augmented Generation (RAG) techniques. The goal of the proposed approach is to build a vector database in which scientific articles are divided into textual sections (chunking). Each chunk is associated with information on its content, transformed into semantic vectors by embedding models, and ultimately stored to optimize the retrieval process. The core of the work involves the development of a methodology for recognizing genetic variants through the implementation of a deep learning-based NER system that combines Large Language Models (LLM) with few-shot prompting techniques. This method allows for more precise identification of variants described in various nomenclatures, thus overcoming the limitations of approaches based on regular expressions. Analysis of the results obtained in terms of variant-article association, compared to the state-of-the-art of available tools, showed a significant improvement in the accuracy of genetic variant recognition. Integrating this method into VarChat has the potential to reduce dependence on external services, ensuring greater autonomy, scalability, and reliability, as well as enhancing the quality of VarChat’s responses in terms of retrieving relevant literature and generating more pertinent summaries. This study demonstrates the potential of advanced NER and RAG techniques in improving the management of genomic information, paving the way for new applications in the field of bioinformatics.

L’analisi e l'interpretazione delle varianti genetiche è fondamentale per la ricerca biomedica e la pratica clinica, ma l’enorme quantità di dati contenuti nella letteratura scientifica rappresenta una sfida per il recupero e l'annotazione automatizzata di informazioni a riguardo. In questo lavoro, si propone un’ottimizzazione di VarChat (varchat.engenome.com), una piattaforma open-access basata su intelligenza artificiale generativa, per migliorare l’estrazione e l'elaborazione di informazioni sulle varianti genetiche nei testi di articoli scientifici open access. Il lavoro è stato svolto in collaborazione con il team di enGenome, spin-off dell'Università di Pavia, che ha sviluppato VarChat. L’attuale implementazione di VarChat si basa su una combinazione di servizi esterni per il recupero degli articoli scientifici relativi a una singola variante genetica, che ne limita la flessibilità e la scalabilità. Una variante genetica può essere rappresentata con diverse nomenclature, spesso non standardizzate, e questo rende molto complesso il processo di associazione di una variante ad un articolo, come dimostrato dall'ampio tasso di errore di annotazione dei migliori tool pubblici disponibili. Per superare queste limitazioni e mettere a punto una metodologia generalizzabile ad altri tipi di testo, il presente lavoro si pone l'obiettivo di sviluppare un metodo di recupero delle informazioni dalla letteratura associata ad una variante genetica basato su tecniche di Named Entity Recognition (NER) e Retrieval-Augmented Generation (RAG). L’approccio adottato ha la finalità ultima di costruire un database vettoriale, in cui gli articoli scientifici vengono suddivisi in sezioni testuali (chunking), associati alle informazioni relative al loro contenuto, trasformati in vettori semantici mediante modelli di embedding, infine archiviati per ottimizzare il processo di retrieval. Il core del lavoro ha riguardato lo sviluppo della metodologia per il riconoscimento delle varianti genetiche, mediante l'implementazione di un sistema NER basato su deep learning, combinando modelli Large Language Model (LLM) con tecniche di few-shot prompting. Questo metodo consente di identificare con maggiore precisione varianti descritte in diverse nomenclature, superando le limitazioni di approcci basati su espressioni regolari. L’analisi dei risultati ottenuti in termini di associazione variante-articolo rispetto allo stato dell'arte dei tool disponibili ha mostrato un miglioramento significativo nell’accuratezza del riconoscimento delle varianti genetiche. L’integrazione di questo metodo in VarChat ha la potenzialità di ridurre la dipendenza da servizi esterni, garantendo maggiore autonomia, scalabilità e affidabilità, ma anche di aumentare la qualità della risposta di VarChat in termini di recupero della letteratura rilevante e anche di rilevanza del summary generato. Questo studio dimostra il potenziale delle tecniche avanzate di NER e RAG nel migliorare la gestione delle informazioni genomiche, aprendo la strada a nuove applicazioni nell’ambito della bioinformatica.