The increasing complexity of data management and integration poses significant challenges, particularly in transforming heterogeneous datasets into coherent and queryable formats. Knowledge Graphs offer a powerful solution for representing and querying structured data, yet their accessibility remains limited due to the technical expertise required to construct and query them effectively. This thesis presents a comprehensive system that integrates semantic technologies and advanced artificial intelligence techniques to address these challenges. The proposed solution encompasses an end-to-end pipeline, starting with an Extract, Transform, Load (ETL) process for constructing Knowledge Graphs from raw data, followed by a natural language interface powered by Large Language Models (LLMs) for automatic SPARQL query generation. By combining template-based methods with the flexibility of LLMs, the system ensures reliable and interpretable query generation while mitigating common issues such as semantic misalignment and query hallucination. A dynamic visualization dashboard was also developed to present query results intuitively, adapting automatically to the structure of the retrieved data. Extensive evaluations demonstrated the effectiveness of the system, with high accuracy in query generation and robust visualization capabilities. The results highlight the potential of integrating semantic technologies with advanced AI to simplify access to Knowledge Graphs and enhance their usability. This thesis contributes to bridging the gap between raw data and actionable knowledge, offering a scalable and user-friendly framework for semantic data management and analysis.
La gestione e l'integrazione dei dati rappresentano una sfida complessa, soprattutto nella trasformazione di dataset eterogenei in formati coerenti e interrogabili. I Knowledge Graphs offrono una soluzione efficace per rappresentare e interrogare dati strutturati, ma la loro accessibilità è spesso limitata dalle competenze tecniche necessarie per costruirli e utilizzarli. Questa tesi propone un sistema completo che integra tecnologie semantiche e l'intelligenza artificiale per affrontare queste difficoltà. Il sistema sviluppato comprende una pipeline end-to-end che inizia con un processo di Extract, Transform, Load (ETL) per la costruzione di Knowledge Graphs a partire da dati grezzi. Successivamente, un'interfaccia in linguaggio naturale, basata su Large Language Models (LLM), permette la generazione automatica di query SPARQL. Grazie alla combinazione di metodi basati su template e alla flessibilità degli LLM, il sistema garantisce una generazione di query accurata e interpretabile, riducendo problemi come le allucinazioni e il disallineamento semantico. Inoltre, è stata progettata una dashboard dinamica per visualizzare i risultati in modo intuitivo, adattandosi automaticamente alla struttura dei dati. Le valutazioni hanno dimostrato l'efficacia del sistema, evidenziando un'elevata accuratezza nella generazione delle query e solide capacità di visualizzazione. I risultati confermano il potenziale dell'integrazione tra tecnologie semantiche e intelligenza artificiale per rendere i Knowledge Graphs più accessibili e utili. Questa tesi contribuisce a colmare il divario tra dati grezzi e conoscenze pratiche, offrendo un framework scalabile e intuitivo per la gestione e l'analisi dei dati semantici.
Un nuovo approccio alla risposta di domande sui knowledge graph utilizzando tecniche di template matching e Large Language Models
LIGARI, DAVIDE
2023/2024
Abstract
The increasing complexity of data management and integration poses significant challenges, particularly in transforming heterogeneous datasets into coherent and queryable formats. Knowledge Graphs offer a powerful solution for representing and querying structured data, yet their accessibility remains limited due to the technical expertise required to construct and query them effectively. This thesis presents a comprehensive system that integrates semantic technologies and advanced artificial intelligence techniques to address these challenges. The proposed solution encompasses an end-to-end pipeline, starting with an Extract, Transform, Load (ETL) process for constructing Knowledge Graphs from raw data, followed by a natural language interface powered by Large Language Models (LLMs) for automatic SPARQL query generation. By combining template-based methods with the flexibility of LLMs, the system ensures reliable and interpretable query generation while mitigating common issues such as semantic misalignment and query hallucination. A dynamic visualization dashboard was also developed to present query results intuitively, adapting automatically to the structure of the retrieved data. Extensive evaluations demonstrated the effectiveness of the system, with high accuracy in query generation and robust visualization capabilities. The results highlight the potential of integrating semantic technologies with advanced AI to simplify access to Knowledge Graphs and enhance their usability. This thesis contributes to bridging the gap between raw data and actionable knowledge, offering a scalable and user-friendly framework for semantic data management and analysis.| File | Dimensione | Formato | |
|---|---|---|---|
|
Tesi_Davide_Ligari_2023_24.pdf
accesso aperto
Dimensione
1.37 MB
Formato
Adobe PDF
|
1.37 MB | Adobe PDF | Visualizza/Apri |
È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/33339