This study explores the application of Large Language Models to populate synsets in the Latin WordNet, keeping a human-in-the-loop approach. We compare zero-shot, few-shot, and fine-tuning methods against an English baseline. Quantitative analysis reveals significant improvements from zero-shot to fine-tuned approaches, with the latter outperforming the baseline. Qualitative assessment indicates better performance with verbs and polysemous lemmas. While results are encouraging, human oversight remains crucial for accuracy. Future research could focus on improving performance across different parts of speech and degrees of polysemy, potentially incorporating etymological information or cross-linguistic data.
Questo studio esplora l'applicazione dei Large Language Models per popolare i synset nel Latin WordNet, con l'obiettivo di analizzare e valutare le prospettive di annotazione automatica o semi automatica (human-in-the-loop). Verranno confrontati metodi zero-shot, few-shot e di fine-tuning con una baseline inglese. L'analisi quantitativa rivela miglioramenti significativi dal metodo zero-shot a quello fine-tuned, con quest'ultimo che supera la baseline. La valutazione qualitativa indica una migliore performance con i verbi e i lemmi polisemici. Sebbene i risultati siano incoraggianti, la supervisione umana rimane cruciale per l'accuratezza. La ricerca futura potrebbe concentrarsi sul miglioramento delle prestazioni tra diverse parti del discorso e gradi di polisemia, potenzialmente incorporando informazioni etimologiche o dati interlinguistici.
Large Language Models per l'annotazione di synset: uno studio esplorativo sul Latin WordNet
SANTORO, DANIELA
2023/2024
Abstract
This study explores the application of Large Language Models to populate synsets in the Latin WordNet, keeping a human-in-the-loop approach. We compare zero-shot, few-shot, and fine-tuning methods against an English baseline. Quantitative analysis reveals significant improvements from zero-shot to fine-tuned approaches, with the latter outperforming the baseline. Qualitative assessment indicates better performance with verbs and polysemous lemmas. While results are encouraging, human oversight remains crucial for accuracy. Future research could focus on improving performance across different parts of speech and degrees of polysemy, potentially incorporating etymological information or cross-linguistic data.File | Dimensione | Formato | |
---|---|---|---|
LLMs e Lingue Antiche-2.pdf
accesso aperto
Dimensione
2.06 MB
Formato
Adobe PDF
|
2.06 MB | Adobe PDF | Visualizza/Apri |
È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/27206