Text analysis is an innovative frontier in the digital information processing and management field. This technological tool aims to radically transform the way we interact with large volumes of text, simplifying operations that traditionally require a significant investment of time and resources. This innovative approach also opens new perspectives for understanding and interpreting historical texts, providing powerful tools to decipher, analyze, and preserve humanity's linguistic heritage. The Stanza Analyzer is a powerful natural language processing tool developed by the Stanford NLP Group. This framework is designed to provide researchers and developers with a wide range of text analysis features in various languages, including tools for part-of-speech tagging, entity recognition, syntactic dependency analysis, and much more. One of Stanza's distinctive features is its ability to support a significant number of languages, including some ancient languages such as Old Church Slavonic. The current thesis utilized the Stanza analyzer, trained on the Old Church Slavonic texts from the PROIEL treebank to analyze the text of the Vision of Isaiah. This apocryphal document focuses on the prophet Isaiah's vision as he ascends into the heavenly realm under an angel's guidance and reaches the highest realm where the divinity dwells. The Vision of Isaiah was likely translated into Old Church Slavonic from a Greek original by scribes in Bulgaria, although existing manuscript sources were produced in eastern areas and reflect unique orthographic variations of that region. The linguistic characteristics of this text have made the annotation with Stanza sometimes challenging compared to the results reported during the analyzer's training. Despite the limitations, which still required manual review and correction work, Stanza allowed for rapid annotation of Isaiah's Vision, from which this study has produced a CONLLU-format treebank following Universal Dependencies standards and an easy characterization of its main linguistic features, compared with those of the PROIEL treebank.
L'analisi automatica del testo rappresenta una frontiera innovativa nell'ambito del trattamento e della gestione dell'informazione digitale. Questo strumento tecnologico mira a trasformare radicalmente il modo in cui interagiamo con grandi volumi di testo, semplificando operazioni che tradizionalmente richiedono un notevole dispendio di tempo e risorse. Questo approccio innovativo apre nuove prospettive anche per la comprensione e l'interpretazione di testi storici, offrendo strumenti potenti per decifrare, analizzare e conservare il patrimonio linguistico dell'umanità. L'analizzatore Stanza è un potente strumento di elaborazione del linguaggio naturale (NLP) sviluppato dallo Stanford NLP Group. Questo framework è progettato per fornire ai ricercatori e agli sviluppatori un'ampia gamma di funzionalità per l'analisi del testo in diverse lingue, inclusi strumenti per il tagging delle parti del discorso, il riconoscimento di entità, l'analisi della dipendenza sintattica e molto altro. Una delle caratteristiche distintive di Stanza è la sua capacità di supportare un numero significativo di lingue, comprese alcune lingue antiche come il paleoslavo. Nella presente tesi l’analizzatore Stanza, addestrato per la lingua paleoslava sui testi della treebank PROIEL, è stato utilizzato per analizzare il testo della Visione di Isaia, un documento apocrifo incentrato sulla visione del profeta Isaia, che, sotto la guida di un angelo, ascende nel mondo celeste fino al cospetto della divinità. La Visione di Isaia fu tradotta in paleoslavo probabilmente da un originale greco da copisti di area bulgara, sebbene i testimoni manoscritti oggi esistenti furono redatti in area orientale e risentano delle varianti ortografiche proprie dell’area. Proprio le peculiarità linguistiche di questo testo hanno reso l’annotazione con Stanza a volte difficoltosa rispetto ai risultati riportati durante l’addestramento dell’analizzatore. Nonostante le limitazioni, che hanno comunque richiesto un lavoro di revisione e correzione manuale, Stanza ha permesso una annotazione rapida della Visione di Isaia, di cui il presente lavoro ha prodotto una treebank in formato CONLLU seguendo lo standard Universal Dependencies e una caratterizzazione agevole delle sue principali caratteristiche linguistiche, che sono state confrontate con quelle della treebank PROIEL.
La Visione di Isaia. L’annotazione automatica e l’analisi del testo paleoslavo attraverso il tool Stanza
GALLI, CARLO
2022/2023
Abstract
Text analysis is an innovative frontier in the digital information processing and management field. This technological tool aims to radically transform the way we interact with large volumes of text, simplifying operations that traditionally require a significant investment of time and resources. This innovative approach also opens new perspectives for understanding and interpreting historical texts, providing powerful tools to decipher, analyze, and preserve humanity's linguistic heritage. The Stanza Analyzer is a powerful natural language processing tool developed by the Stanford NLP Group. This framework is designed to provide researchers and developers with a wide range of text analysis features in various languages, including tools for part-of-speech tagging, entity recognition, syntactic dependency analysis, and much more. One of Stanza's distinctive features is its ability to support a significant number of languages, including some ancient languages such as Old Church Slavonic. The current thesis utilized the Stanza analyzer, trained on the Old Church Slavonic texts from the PROIEL treebank to analyze the text of the Vision of Isaiah. This apocryphal document focuses on the prophet Isaiah's vision as he ascends into the heavenly realm under an angel's guidance and reaches the highest realm where the divinity dwells. The Vision of Isaiah was likely translated into Old Church Slavonic from a Greek original by scribes in Bulgaria, although existing manuscript sources were produced in eastern areas and reflect unique orthographic variations of that region. The linguistic characteristics of this text have made the annotation with Stanza sometimes challenging compared to the results reported during the analyzer's training. Despite the limitations, which still required manual review and correction work, Stanza allowed for rapid annotation of Isaiah's Vision, from which this study has produced a CONLLU-format treebank following Universal Dependencies standards and an easy characterization of its main linguistic features, compared with those of the PROIEL treebank.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/3655