This thesis investigates the debated authenticity of Plato’s Seventh Letter by comparing different Authorship Verification approaches. The study seeks to examine how comple- mentary computational methods model the linguistic features of a morphologically rich language such as Ancient Greek. Additionally, it attempts to outline a linguistic profile for Plato based on insights derived from the Authorship Verification experiments. The dataset is limited to the platonic corpus augmented by works of the contemporary author Xenophon. Character n-grams and part-of-speech n-grams are used as features for the two stages of the study. First, the unsupervised approach aims to narrow down the platonic works that can best represent a profile of Plato’s writing in the later stage of his life. Based on these findings, the supervised models are trained to distinguish works belonging to this author. Subsequently, the Seventh Letter is tested as part of the validation set, and feature contribution is analysed to explain the output of the models. Looking to F1 as the performance metric, the character-grams consistently yielded the highest scores in both models, whereas results of the part-of-speech n-grams varied more significantly. Our results support Plato’s paternity of the VII Letter and offer a new perspective on constructing a dataset of Ancient texts to train a computational model for Authorship Verification.

Questa tesi indaga la controversa autenticità della “Settima Lettera” di Platone, mettendo a confronto diversi approcci di Authorship Verification. Lo studio mira a esaminare come complementari metodi computazionali configurano le caratteristiche di una lingua morfologicamente ricca come il greco antico. Si cerca inoltre di delineare il profilo linguistico di Platone, basandosi su elementi derivati dagli esperimenti di verifica dell'autore. Il dataset è limitato al corpus platonico, ampliato dalle opere del contemporaneo Senofonte. I character n-grams e gli n-grams formati dalle parti del discorso sono utilizzati come features per le due fasi dello studio. Inizialmente, l'approccio non supervisionato mira a restringere il numero delle opere platoniche che meglio possono rappresentare un profilo della scrittura di un Platone che opera in una fase tarda della vita. Sulla base di questi risultati, i modelli supervisionati vengono addestrati a distinguere le opere appartenenti a questo autore. Successivamente, la “Settima Lettera” è testata come parte del validation set, e viene analizzato il contributo delle feature per spiegare l'output dei modelli. Guardando all'F1 come metrica di performance, si vede come i character n-grams hanno costantemente ottenuto i punteggi più alti in entrambi i modelli, mentre i risultati dei n-grams di parti del discorso variavano più significativamente. I nostri risultati supportano la paternità di Platone per “Settima Lettera” e offrono una nuova prospettiva sulla costruzione di un dataset di testi antichi per addestrare un modello computazionale per la verifica dell'autore.

Indagine sui Metodi Computazionali per la Verifica dell'Autore: Il caso studio della Settima Lettera di Platone

BASILICATI, MATILDE
2022/2023

Abstract

This thesis investigates the debated authenticity of Plato’s Seventh Letter by comparing different Authorship Verification approaches. The study seeks to examine how comple- mentary computational methods model the linguistic features of a morphologically rich language such as Ancient Greek. Additionally, it attempts to outline a linguistic profile for Plato based on insights derived from the Authorship Verification experiments. The dataset is limited to the platonic corpus augmented by works of the contemporary author Xenophon. Character n-grams and part-of-speech n-grams are used as features for the two stages of the study. First, the unsupervised approach aims to narrow down the platonic works that can best represent a profile of Plato’s writing in the later stage of his life. Based on these findings, the supervised models are trained to distinguish works belonging to this author. Subsequently, the Seventh Letter is tested as part of the validation set, and feature contribution is analysed to explain the output of the models. Looking to F1 as the performance metric, the character-grams consistently yielded the highest scores in both models, whereas results of the part-of-speech n-grams varied more significantly. Our results support Plato’s paternity of the VII Letter and offer a new perspective on constructing a dataset of Ancient texts to train a computational model for Authorship Verification.
2022
Investigating Computational Methods for Authorship Verification: The case-study of Plato's Seventh Letter.
Questa tesi indaga la controversa autenticità della “Settima Lettera” di Platone, mettendo a confronto diversi approcci di Authorship Verification. Lo studio mira a esaminare come complementari metodi computazionali configurano le caratteristiche di una lingua morfologicamente ricca come il greco antico. Si cerca inoltre di delineare il profilo linguistico di Platone, basandosi su elementi derivati dagli esperimenti di verifica dell'autore. Il dataset è limitato al corpus platonico, ampliato dalle opere del contemporaneo Senofonte. I character n-grams e gli n-grams formati dalle parti del discorso sono utilizzati come features per le due fasi dello studio. Inizialmente, l'approccio non supervisionato mira a restringere il numero delle opere platoniche che meglio possono rappresentare un profilo della scrittura di un Platone che opera in una fase tarda della vita. Sulla base di questi risultati, i modelli supervisionati vengono addestrati a distinguere le opere appartenenti a questo autore. Successivamente, la “Settima Lettera” è testata come parte del validation set, e viene analizzato il contributo delle feature per spiegare l'output dei modelli. Guardando all'F1 come metrica di performance, si vede come i character n-grams hanno costantemente ottenuto i punteggi più alti in entrambi i modelli, mentre i risultati dei n-grams di parti del discorso variavano più significativamente. I nostri risultati supportano la paternità di Platone per “Settima Lettera” e offrono una nuova prospettiva sulla costruzione di un dataset di testi antichi per addestrare un modello computazionale per la verifica dell'autore.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/3670