Esplorare modelli per grandi lingue per la scoperta di conoscenze nel dominio sanitario

In the current world, Large Language Models (LLMs) have indeed become a significant buzzword in recent years, particularly in the fields of Artificial Intelligence (AI) and Natural Language Processing (NLP). Their capabilities, applications, and the implications they carry for various sectors and society at large have led to vibrant discussions and debates. Large Language Models (LLMs) revolutionize sectors like healthcare, finance, education, and marketing by enhancing customer service, automating processes, providing insights, improving diagnostics, and personalizing user learning experiences. Extracting specific information from clinical records is a critical task in healthcare data science. Traditional Natural Language Processing (NLP) techniques have been used for information extraction, but they often struggle with the complexity and variability of the clinical language. Large Language Models (LLMs) have emerged as a powerful tool for understanding and generating human-like text and responses. The primary goal of the thesis is to develop a generalized LLM pipeline and framework which can handle different ranges of models with different parameters, capable of extracting diverse types of information from clinical records. The framework will be based on publicly available general-purpose LLMs and techniques to enhance LLMs understanding of the medical terminology will be observed. To evaluate the performance of different open-source LLMs, experimental camping will be conducted using a dataset of clinical records automated and manually annotated by domain experts. The performance of each LLM will be assessed in terms of precision, recall, and F1-score, and campaign their results against both mentioned annotations. Additionally, computational resource utilization and runtime performance will be analyzed to evaluate the efficiency and scalability of the LLMs within the framework. This research will ultimately contribute to the development of improved methods for information extraction from clinical records, empowering healthcare professionals with valuable insights for enhanced patient care and medical research.

Nel mondo attuale, i Large Language Models (LLM) sono diventati un asset chiave, in particolare per quanto riguarda l'elaborazione del linguaggio naturale (NLP). Le loro applicazioni e implicazioni in vari aspetti della società moderna hanno portato a discussioni e dibattiti vivaci. In particolare, i Large Language Models (LLM) stanno rivoluzionando settori come la sanità, la finanza, l'istruzione e il marketing migliorando il servizio clienti e la diagnostica, automatizzando i processi, fornendo approfondimenti, e personalizzando le esperienze di apprendimento degli utenti. Anche nel contesto sanitario, estrarre informazioni specifiche dalle cartelle cliniche è un compito cruciale. Le tradizionali tecniche di elaborazione del linguaggio naturale (NLP) sono state utilizzate per l'estrazione delle informazioni in questo contesto, ma spesso con scarsi risultati vista la complessità e la variabilità del linguaggio clinico. I Large Language Models (LLM) sono emersi come un potente strumento che permette di superare i limiti delle tecniche classie di NLP in domini complessi. L'obiettivo principale della tesi è quello di sviluppare una pipeline e un framework basato sugli LLM in grado di gestire diverse gamme di modelli con parametri diversi, per estrarre diversi tipi di informazioni dalle cartelle cliniche. La soluzione farà leva su modelli LLM di carattere generale disponibili pubblicamente e verranno sviluppate tecniche per migliorare l'elaborazione della terminologia medica da parte dei LLM. Per valutare le prestazioni di diversi LLM open source, la campagna sperimentale sarà condotta utilizzando un set di dati di cartelle cliniche annotate sia manualmente da esperti del settore che automaticamente attraverso espressioni regolari. Le prestazioni di ciascun LLM saranno valutate in termini di precision, recall e F1-score. Inoltre, saranno confrontati i risultati ottenuti rispetto a entrambe le tecniche di annotazioni menzionate. Infine, verranno analizzati l'utilizzo delle risorse computazionali e le prestazioni a runtime per valutare l'efficienza e la scalabilità dei modelli LLM all'interno del framework. Questa ricerca contribuirà in definitiva allo sviluppo di metodi evoluti per l'estrazione di informazioni dalle cartelle cliniche, fornendo agli operatori sanitari informazioni preziose per migliorare la cura dei pazienti e la ricerca medica.