This thesis describes an experiment on automatic Implicit Object completion in Italian. The task is structured as a fill-mask or cloze-task to be applied to five Italian BERT models, fully exploiting their bidirectional capabilities. Firstly, starting from a selected Ontology of 30 verbs (37 semantic patterns from the T-PAS resource), a corpus of 1.200 sentences is created. The corpus is divided into two datasets, called EXPLICIT and IMPLICIT. The second dataset, containing Implicit Objects, is manually annotated by two experts with both a Gold Standard (GS) Noun and the type of omission occurring, understood as a Defaulting strategy that can apply either lexically or pragmatically (Jezek, 2018). The manual annotation shows a significant correlation between the type of Defaulting and the range of possible completions for each verb. Subsequently, the experiment is applied and the results are evaluated by calculating the cosine similarity between the model's output and the manual GS completion. It is demonstrated that the model bert-base-italian-xxl-cased performs better than lighter models in the task, thanks to its ability to guess the most frequent collocations in Lexical Defaulting contexts. It is confirmed what has been observed in previous studies, namely that BERT models tend to favor the frequency of n-grams, with some difficulty in completing the Object when a deeper understanding of semantic relationships is required (e.g., output = "Il postino suona [il pianoforte] sempre due volte"). Furthermore, it is observed that the models tend to return words in metonymic relation to the GS, replicating the mechanism of semantic coercion (Pustejovsky and Jezek, 2008), and possess limited sensitivity to linguistic boundaries in the explicitation of Shadow Arguments.

La tesi descrive un esperimento sul completamento automatico dell’Oggetto Implicito in italiano. Il task è strutturato come un fill-mask o cloze-task da applicare a cinque modelli BERT italiani, sfruttando appieno le loro capacità bidirezionali. In primis, a partire da un’Ontologia scelta di 30 verbi (37 pattern semantici della risorsa T-PAS), viene creato un corpus di 1.200 frasi. Il corpus è diviso in due dataset, chiamati EXPLICIT e IMPLICIT. Il secondo dataset, contenente Oggetti Impliciti, viene annotato manualmente da due esperti con un sostantivo Gold Standard (GS) e il tipo di omissione, intesa come una strategia di Defaulting che può avvenire a livello lessicale o pragmatico (Jezek, 2018). Dall’annotazione manuale emerge una correlazione significativa tra il tipo di Defaulting e il range di possibili completamenti per ogni verbo. Successivamente, tale risorsa viene utilizzata per applicare l’esperimento e i risultati sono valutati calcolando la cosine similarity tra l’output dei modelli e il completamento manuale GS. Si dimostra che il modello bert-base-italian-xxl-cased funziona meglio dei modelli più leggeri nel task, grazie alla capacità di indovinare le collocazioni più frequenti nei contesti di Defaulting lessicale. Viene confermato quanto osservato in studi precedenti, ovvero che i modelli BERT tendono a privilegiare la frequenza degli n-grams, con alcune difficoltà a completare l’Oggetto laddove è necessaria una comprensione più profonda delle relazioni semantiche (es. output = “Il postino suona [il pianoforte] sempre due volte”). Si osserva inoltre la tendenza dei modelli a restituire parole in relazione metonimica con il GS, replicando il meccanismo di semantic coercion (Pustejovsky e Jezek, 2008), e la scarsa sensibilità ai limiti linguistici nell’esplicitazione degli Shadow Arguments.

Completamento automatico dell’Oggetto Implicito in italiano: un'esplorazione con BERT

DAFFARA, AGNESE
2022/2023

Abstract

This thesis describes an experiment on automatic Implicit Object completion in Italian. The task is structured as a fill-mask or cloze-task to be applied to five Italian BERT models, fully exploiting their bidirectional capabilities. Firstly, starting from a selected Ontology of 30 verbs (37 semantic patterns from the T-PAS resource), a corpus of 1.200 sentences is created. The corpus is divided into two datasets, called EXPLICIT and IMPLICIT. The second dataset, containing Implicit Objects, is manually annotated by two experts with both a Gold Standard (GS) Noun and the type of omission occurring, understood as a Defaulting strategy that can apply either lexically or pragmatically (Jezek, 2018). The manual annotation shows a significant correlation between the type of Defaulting and the range of possible completions for each verb. Subsequently, the experiment is applied and the results are evaluated by calculating the cosine similarity between the model's output and the manual GS completion. It is demonstrated that the model bert-base-italian-xxl-cased performs better than lighter models in the task, thanks to its ability to guess the most frequent collocations in Lexical Defaulting contexts. It is confirmed what has been observed in previous studies, namely that BERT models tend to favor the frequency of n-grams, with some difficulty in completing the Object when a deeper understanding of semantic relationships is required (e.g., output = "Il postino suona [il pianoforte] sempre due volte"). Furthermore, it is observed that the models tend to return words in metonymic relation to the GS, replicating the mechanism of semantic coercion (Pustejovsky and Jezek, 2008), and possess limited sensitivity to linguistic boundaries in the explicitation of Shadow Arguments.
2022
Automatic Implicit Object completion in Italian: an exploration with BERT
La tesi descrive un esperimento sul completamento automatico dell’Oggetto Implicito in italiano. Il task è strutturato come un fill-mask o cloze-task da applicare a cinque modelli BERT italiani, sfruttando appieno le loro capacità bidirezionali. In primis, a partire da un’Ontologia scelta di 30 verbi (37 pattern semantici della risorsa T-PAS), viene creato un corpus di 1.200 frasi. Il corpus è diviso in due dataset, chiamati EXPLICIT e IMPLICIT. Il secondo dataset, contenente Oggetti Impliciti, viene annotato manualmente da due esperti con un sostantivo Gold Standard (GS) e il tipo di omissione, intesa come una strategia di Defaulting che può avvenire a livello lessicale o pragmatico (Jezek, 2018). Dall’annotazione manuale emerge una correlazione significativa tra il tipo di Defaulting e il range di possibili completamenti per ogni verbo. Successivamente, tale risorsa viene utilizzata per applicare l’esperimento e i risultati sono valutati calcolando la cosine similarity tra l’output dei modelli e il completamento manuale GS. Si dimostra che il modello bert-base-italian-xxl-cased funziona meglio dei modelli più leggeri nel task, grazie alla capacità di indovinare le collocazioni più frequenti nei contesti di Defaulting lessicale. Viene confermato quanto osservato in studi precedenti, ovvero che i modelli BERT tendono a privilegiare la frequenza degli n-grams, con alcune difficoltà a completare l’Oggetto laddove è necessaria una comprensione più profonda delle relazioni semantiche (es. output = “Il postino suona [il pianoforte] sempre due volte”). Si osserva inoltre la tendenza dei modelli a restituire parole in relazione metonimica con il GS, replicando il meccanismo di semantic coercion (Pustejovsky e Jezek, 2008), e la scarsa sensibilità ai limiti linguistici nell’esplicitazione degli Shadow Arguments.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/3641