Recent years have seen the development of the Linked Data paradigm, which includes among its goals the interoperability of digital resources. The present work follows such paradigm, as it aims to link a new textual resource to the LiLa: Linking Latin project (2018-2023). To begin with, lemmatization and part-of-speech (PoS) tagging are manually performed on the raw text of the anonymous Latin comedy Querolus. The manual annotation allows to discuss methodological and theoretical issues in text annotation and contextually to evaluate how some of the main Natural Language Processing (NLP) tools (namely CLTK, Collatinus, MarMoT, TreeTagger, UDPipe) perform in automatic annotation, by comparing their results to the gold standard that the manually annotated text represents. Lemmatization and PoS tagging thus allow to link the text of Querolus to the LiLa Knowledge Base. In fact, the LiLa project intends to develop a Knowledge Base of linguistic resources for Latin, following the Linked Open Data paradigm and creating a network of connected linguistic information. Since the different resources are linked through lemmas – which represent the linchpins of the Knowledge Base – lemmatization is essential to include a new resource. Similarly, PoS tagging proves fundamental as morphological information often helps disambiguate ambiguous linkings. Eventually, some queries are presented as case studies in order to show how linking Querolus to the LiLa Knowledge Base makes possible a multiple and connected interrogation, able to exploit the full potentiality of data. Instead of performing specific queries on each resource, the LiLa project – and the Linked Data paradigm at its basis – allows to perform a unique query returning in one step all information needed, entailing a save of time and effort to access the same amount of information.

Gli ultimi anni sono stati caratterizzati dalla diffusione del modello dei Linked Data, che annovera tra i suoi scopi principali l’interoperabilità tra risorse digitali. Questo lavoro di tesi si inserisce in tale contesto e mira ad allacciare una nuova risorsa testuale al progetto LiLa: Linking Latin (2018-2023). Il testo scelto è costituito dalla commedia latina anonima Querolus. In primo luogo, vengono effettuati la lemmatizzazione e il part-of-speech (PoS) tagging manuali del testo. Tali operazioni consentono di affrontare questioni teorico-metodologiche relative all’annotazione e contestualmente di creare un gold standard di riferimento. Tramite il confronto con il gold standard viene fornita una valutazione delle performances di alcuni tra i principali strumenti di Natural Language Processing (NLP) (CLTK, Collatinus, MarMoT, TreeTagger, UDPipe) a livello di lemmatizzazione e PoS tagging automatici. Tale confronto viene effettuato grazie a uno script Python creato ad hoc ma facilmente generalizzabile qualora dovessero essere valutati nuovi strumenti di NLP, diversi da quelli presi in considerazione in questo lavoro. La lemmatizzazione e il PoS tagging consentono poi di allacciare il testo del Querolus alla Knowledge Base di LiLa. Il progetto LiLa, infatti, mira a sviluppare una Knowledge Base di risorse linguistiche per il latino, adottando il paradigma dei Linked Open Data e creando una rete di informazioni linguistiche interconnesse. Dal momento che l'allacciamento e l’interconnessione delle risorse avvengono tramite i lemmi - che costituiscono i cardini dell'architettura della Knowledge Base - la lemmatizzazione è essenziale per includere una nuova risorsa. Similmente, anche il PoS tagging risulta fondamentale in quanto l'informazione morfologica permette spesso di disambiguare allacciamenti ambigui. Per concludere, vengono proposte come case studies alcune query che dimostrino come l’allacciamento del Querolus alla Knowledge Base di LiLa permetta di svolgere una interrogazione multipla e connessa, sfruttando pienamente le potenzialità dei dati a disposizione. Emerge così il valore del progetto LiLa (e dunque del modello Linked Open Data che ne sta alla base), che permette di ottenere tutte le informazioni richieste in un solo passaggio e tramite una sola interrogazione, invece di svolgere interrogazioni indipendenti su ogni singola risorsa.

Including a new textual resource into the LiLa Knowledge Base. Lemmatization, PoS tagging and linking of Querolus

GAMBA, FEDERICA
2019/2020

Abstract

Recent years have seen the development of the Linked Data paradigm, which includes among its goals the interoperability of digital resources. The present work follows such paradigm, as it aims to link a new textual resource to the LiLa: Linking Latin project (2018-2023). To begin with, lemmatization and part-of-speech (PoS) tagging are manually performed on the raw text of the anonymous Latin comedy Querolus. The manual annotation allows to discuss methodological and theoretical issues in text annotation and contextually to evaluate how some of the main Natural Language Processing (NLP) tools (namely CLTK, Collatinus, MarMoT, TreeTagger, UDPipe) perform in automatic annotation, by comparing their results to the gold standard that the manually annotated text represents. Lemmatization and PoS tagging thus allow to link the text of Querolus to the LiLa Knowledge Base. In fact, the LiLa project intends to develop a Knowledge Base of linguistic resources for Latin, following the Linked Open Data paradigm and creating a network of connected linguistic information. Since the different resources are linked through lemmas – which represent the linchpins of the Knowledge Base – lemmatization is essential to include a new resource. Similarly, PoS tagging proves fundamental as morphological information often helps disambiguate ambiguous linkings. Eventually, some queries are presented as case studies in order to show how linking Querolus to the LiLa Knowledge Base makes possible a multiple and connected interrogation, able to exploit the full potentiality of data. Instead of performing specific queries on each resource, the LiLa project – and the Linked Data paradigm at its basis – allows to perform a unique query returning in one step all information needed, entailing a save of time and effort to access the same amount of information.
2019
Including a new textual resource into the LiLa Knowledge Base. Lemmatization, PoS tagging and linking of Querolus
Gli ultimi anni sono stati caratterizzati dalla diffusione del modello dei Linked Data, che annovera tra i suoi scopi principali l’interoperabilità tra risorse digitali. Questo lavoro di tesi si inserisce in tale contesto e mira ad allacciare una nuova risorsa testuale al progetto LiLa: Linking Latin (2018-2023). Il testo scelto è costituito dalla commedia latina anonima Querolus. In primo luogo, vengono effettuati la lemmatizzazione e il part-of-speech (PoS) tagging manuali del testo. Tali operazioni consentono di affrontare questioni teorico-metodologiche relative all’annotazione e contestualmente di creare un gold standard di riferimento. Tramite il confronto con il gold standard viene fornita una valutazione delle performances di alcuni tra i principali strumenti di Natural Language Processing (NLP) (CLTK, Collatinus, MarMoT, TreeTagger, UDPipe) a livello di lemmatizzazione e PoS tagging automatici. Tale confronto viene effettuato grazie a uno script Python creato ad hoc ma facilmente generalizzabile qualora dovessero essere valutati nuovi strumenti di NLP, diversi da quelli presi in considerazione in questo lavoro. La lemmatizzazione e il PoS tagging consentono poi di allacciare il testo del Querolus alla Knowledge Base di LiLa. Il progetto LiLa, infatti, mira a sviluppare una Knowledge Base di risorse linguistiche per il latino, adottando il paradigma dei Linked Open Data e creando una rete di informazioni linguistiche interconnesse. Dal momento che l'allacciamento e l’interconnessione delle risorse avvengono tramite i lemmi - che costituiscono i cardini dell'architettura della Knowledge Base - la lemmatizzazione è essenziale per includere una nuova risorsa. Similmente, anche il PoS tagging risulta fondamentale in quanto l'informazione morfologica permette spesso di disambiguare allacciamenti ambigui. Per concludere, vengono proposte come case studies alcune query che dimostrino come l’allacciamento del Querolus alla Knowledge Base di LiLa permetta di svolgere una interrogazione multipla e connessa, sfruttando pienamente le potenzialità dei dati a disposizione. Emerge così il valore del progetto LiLa (e dunque del modello Linked Open Data che ne sta alla base), che permette di ottenere tutte le informazioni richieste in un solo passaggio e tramite una sola interrogazione, invece di svolgere interrogazioni indipendenti su ogni singola risorsa.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/487