Sviluppo di un Sistema Basato sulla Conoscenza per Supportare l'Health Technology Assessment: Integrazione dei Dati del Paziente e della Letteratura Scientifica

The evolution of digital technologies in healthcare has led to new opportunities in disease diagnosis, monitoring and treatment, but also significant challenges in health technology assessment. In particular, the introduction of telemedicine platforms and eHealth solutions has made it increasingly urgent to adopt assessment tools capable of analysing their impact in a rigorous and multidimensional manner. However, the integration of heterogeneous sources such as real-world clinical data, patient feedback and scientific literature is still difficult to achieve in practice. The need for innovative methodological approaches to fill these gaps has made the adoption of knowledge-based systems a promising solution to support digital health technology assessment processes. This thesis explores the development and implementation of a knowledge graph-based system and advanced information Retrieval and Generation models for clinical decision support, with a particular focus on personalization of decisions based on patient data. The developed system integrates graph databases with semantic technologies to optimize the analysis of clinical and scientific data, using embedding models such as Sentence-BERT to compare qualitative data, including symptoms and diagnosis. This approach enables dynamic and scalable information management, providing personalized responses based on patient data and scientific literature. One of the key aspects of the system is the use of a graph database (Neo4j), which enables the intuitive and flexible representations of the complex relationships between patients, diagnosis, treatments and medical guidelines. The integration with the RAG model allows to retrieve and generate contextualized responses, improving the reliability and quality of information provided to the medical staff. The combination of the clinical data structured in the graph with external scientific resources ensured responses supported by the best available evidence, thus improving the reliability of the system. In addition, the comparison between two approaches - one based on human intervention (Human-Driven) and the other fully automated through language models (LLM-Driven) - showed that the Human-Driven approach is superior in terms of personalization and response accuracy, offering more accurate information retrieval management. The LLM-Driven approach, while faster, has shown limitations in the amount of data retrieved, leading to more generic and less detailed responses. The system was tested using real clinical datasets, demonstrating its effectiveness in identifying patient-specific needs and generating targeted intervention suggestions. Thanks to its modular architecture and semantic flexibility, the proposed framework can be applied across diverse clinical domains, supporting scalable and patient-centered Health Technology Assessment as well as personalized clinical decision-making.

L'evoluzione delle tecnologie digitali nel settore sanitario ha portato a nuove opportunità nella diagnosi, nel monitoraggio e nel trattamento delle malattie, ma anche a sfide significative nella valutazione delle tecnologie sanitarie. In particolare, l'introduzione delle piattaforme di telemedicina e delle soluzioni eHealth ha reso sempre più urgente l'adozione di strumenti di valutazione in grado di analizzare il loro impatto in modo rigoroso e multidimensionale. Tuttavia, l'integrazione di fonti eterogenee come i dati clinici reali, il feedback dei pazienti e la letteratura scientifica è ancora difficile da realizzare nella pratica. La necessità di approcci metodologici innovativi per colmare queste lacune ha reso l'adozione di sistemi basati sulla conoscenza una soluzione promettente per sostenere i processi di valutazione delle tecnologie sanitarie digitali. Questa tesi esplora lo sviluppo e l'implementazione di un sistema basato su grafo di conoscenza e modelli avanzati di recupero e generazione di informazioni per il supporto decisionale clinico, con particolare attenzione alla personalizzazione delle decisioni basate sui dati dei pazienti. Il sistema sviluppato integra database grafici con tecnologie semantiche per ottimizzare l'analisi dei dati clinici e scientifici, utilizzando modelli embedding come Sentence-BERT per confrontare i dati qualitativi, compresi sintomi e diagnosi. Questo approccio consente una gestione delle informazioni dinamica e scalabile, fornendo risposte personalizzate basate sui dati dei pazienti e sulla letteratura scientifica. Uno degli aspetti chiave del sistema è l'uso di un database grafico (Neo4j), che consente la rappresentazione intuitiva e flessibile delle complesse relazioni tra pazienti, diagnosi, trattamenti e linee guida mediche. L'integrazione con il modello RAG permette di recuperare e generare risposte contestualizzate, migliorando l'affidabilità e la qualità delle informazioni fornite al personale medico. La combinazione dei dati clinici strutturati nel grafico con risorse scientifiche esterne ha garantito risposte supportate dalle migliori prove disponibili, migliorando così l'affidabilità del sistema. Inoltre, il confronto tra due approcci - uno basato sull'intervento umano (Human-Driven) e l'altro completamente automatizzato attraverso modelli linguistici (LLM-Driven) - ha dimostrato che l'approccio Human-Driven è superiore in termini di personalizzazione e precisione della risposta, offrire una gestione più accurata del recupero delle informazioni. L'approccio LLM-Driven, anche se più veloce, ha mostrato limitazioni nella quantità di dati recuperati, portando a risposte più generiche e meno dettagliate. Il sistema è stato testato utilizzando serie di dati clinici reali, dimostrando la sua efficacia nell'identificare le esigenze specifiche del paziente e generare suggerimenti per interventi mirati. Grazie alla sua architettura modulare e alla flessibilità semantica, il framework proposto può essere applicato a diversi settori clinici, supportando una valutazione delle tecnologie sanitarie scalabile e centrata sul paziente nonché un processo decisionale clinico personalizzato.