This paper is aimed at providing an account of my work during my internship at the Centro Interdisciplinare di Ricerche per la Computerizzazione dei Segni dell’Espressione (CIRCSE, Università Cattolica del Sacro Cuore, Milan). This contribution is the result of my collaboration on Dr. Theodorus Fransen's MSC MOLOR (Morphologically Linked Old Irish Resource) project. On the principle of LLOD and inspired by LiLa (Linking Latin, CIRCSE, UCSC, 2018-2023), the project aims to create a collection of verbs, which have been lemmatized, classified and systematized according to principles and labels designed specifically for a non-standardized medieval language such as Old Irish (600-900 AD). The first chapter (Introduction) outlines the historical and linguistic profile of Old Irish, enumerating and describing both the sources in which the language is attested and the resources currently available for scholars. The second chapter (Methodology), illustrates and describes the criteria and principles adopted, as well as the labels developed for the classification and systematization on an orthographic and/or morphological basis of the lemmas collected from the three main existing lexical resources: (1) Corpus PalaeHibernicum (Stifter et al., 2021), (2) Electronic Dictionary of the Irish Language (eDIL) and Kavanagh & Wodtko (2001). The third chapter (Description of lemmas in the Lemma Bank), provides a detailed description and analysis of the collected lemmas, giving specific information such as, for example, inflectional class, occurrences, and etymology. The last and final chapter illustrates the result of this work and the future perspectives.The result is thus a collection of 1121 lemmas, as of the current date (May 2025), being converted to RDF.

Il seguente elaborato intende fornire un resoconto del mio lavoro svolto durante il tirocinio presso il Centro Interdisciplinare di Ricerche per la Computerizzazione dei Segni dell’Espressione (CIRCSE, Università Cattolica del Sacro Cuore, Milano). Questo contributo è il risultato della mia collaborazione al progetto MSC MOLOR (Morphologically Linked Old Irish Resource) del Dr. Theodorus Fransen. Sul principio del LLOD e su modello di LiLa (Linking Latin, 2018-2023), il progetto intende creare una raccolta di verbi, lemmatizzati, classificati e sistematizzati secondo principi ed etichette ideati ad hoc per una lingua medievale non-standardizzata come l’Irlandese Antico (600-900 d.C). Nel primo capitolo (Introduzione) si è delineato il profilo storico e linguistico dell’Irlandese antico, enumerando e descrivendo dettagliatamente sia le fonti in cui la lingua è attestata, sia le risorse attualmente disponibili per lo studio. Il secondo capitolo (Metodologia), illustra e descrive i criteri e i principi adottati, nonché le etichette sviluppate per la classificazione e sistematizzazione su base ortografica e/o morfologica dei lemmi raccolti dalle tre principali risorse lessicali esistenti: (1) Corpus PalaeHibernicum (Stifter et al., 2021), (2) Electronic Dictionary of the Irish Language (eDIL) e Kavanagh & Wodtko (2001). Il terzo capitolo (Descrizione dei lemmi nella Lemma Bank), fornisce una descrizione e un’analisi dettagliata dei lemmi raccolti, dando informazioni specifiche quali, ad esempio, la classe flessionale, le attestazioni e l’etimologia. Il quarto e ultimo capitolo illustra i risultati e le prospettive future. Il risultato è quindi una raccolta di 1121 lemmi, alla data attuale (Maggio 2025), in fase di conversione in RDF.

"Creazione di una Lemma Bank per i verbi in Irlandese Antico: un tentativo di lemmatizzare una lingua medievale non-standardizzata"

SAMPERI, FEDERICO SIMONE
2024/2025

Abstract

This paper is aimed at providing an account of my work during my internship at the Centro Interdisciplinare di Ricerche per la Computerizzazione dei Segni dell’Espressione (CIRCSE, Università Cattolica del Sacro Cuore, Milan). This contribution is the result of my collaboration on Dr. Theodorus Fransen's MSC MOLOR (Morphologically Linked Old Irish Resource) project. On the principle of LLOD and inspired by LiLa (Linking Latin, CIRCSE, UCSC, 2018-2023), the project aims to create a collection of verbs, which have been lemmatized, classified and systematized according to principles and labels designed specifically for a non-standardized medieval language such as Old Irish (600-900 AD). The first chapter (Introduction) outlines the historical and linguistic profile of Old Irish, enumerating and describing both the sources in which the language is attested and the resources currently available for scholars. The second chapter (Methodology), illustrates and describes the criteria and principles adopted, as well as the labels developed for the classification and systematization on an orthographic and/or morphological basis of the lemmas collected from the three main existing lexical resources: (1) Corpus PalaeHibernicum (Stifter et al., 2021), (2) Electronic Dictionary of the Irish Language (eDIL) and Kavanagh & Wodtko (2001). The third chapter (Description of lemmas in the Lemma Bank), provides a detailed description and analysis of the collected lemmas, giving specific information such as, for example, inflectional class, occurrences, and etymology. The last and final chapter illustrates the result of this work and the future perspectives.The result is thus a collection of 1121 lemmas, as of the current date (May 2025), being converted to RDF.
2024
"Creating a Lemma Bank for Old Irish verbs: an attempt at lemmatizing a medieval non-standardized language"
Il seguente elaborato intende fornire un resoconto del mio lavoro svolto durante il tirocinio presso il Centro Interdisciplinare di Ricerche per la Computerizzazione dei Segni dell’Espressione (CIRCSE, Università Cattolica del Sacro Cuore, Milano). Questo contributo è il risultato della mia collaborazione al progetto MSC MOLOR (Morphologically Linked Old Irish Resource) del Dr. Theodorus Fransen. Sul principio del LLOD e su modello di LiLa (Linking Latin, 2018-2023), il progetto intende creare una raccolta di verbi, lemmatizzati, classificati e sistematizzati secondo principi ed etichette ideati ad hoc per una lingua medievale non-standardizzata come l’Irlandese Antico (600-900 d.C). Nel primo capitolo (Introduzione) si è delineato il profilo storico e linguistico dell’Irlandese antico, enumerando e descrivendo dettagliatamente sia le fonti in cui la lingua è attestata, sia le risorse attualmente disponibili per lo studio. Il secondo capitolo (Metodologia), illustra e descrive i criteri e i principi adottati, nonché le etichette sviluppate per la classificazione e sistematizzazione su base ortografica e/o morfologica dei lemmi raccolti dalle tre principali risorse lessicali esistenti: (1) Corpus PalaeHibernicum (Stifter et al., 2021), (2) Electronic Dictionary of the Irish Language (eDIL) e Kavanagh & Wodtko (2001). Il terzo capitolo (Descrizione dei lemmi nella Lemma Bank), fornisce una descrizione e un’analisi dettagliata dei lemmi raccolti, dando informazioni specifiche quali, ad esempio, la classe flessionale, le attestazioni e l’etimologia. Il quarto e ultimo capitolo illustra i risultati e le prospettive future. Il risultato è quindi una raccolta di 1121 lemmi, alla data attuale (Maggio 2025), in fase di conversione in RDF.
File in questo prodotto:
File Dimensione Formato  
TESI LM_SAMPERI FEDERICO SIMONE.pdf

accesso aperto

Descrizione: L'elaborato si pone l'obiettivo di illustrare le fasi di creazione e strutturazione di una Lemma Bank per i verbi in antico irlandesi.
Dimensione 2.55 MB
Formato Adobe PDF
2.55 MB Adobe PDF Visualizza/Apri

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/29782