This thesis is part of the European project Odeuropa, aimed at developing new methodologies designed to extract olfactory information from digital text collections. The aim of the research presented in this thesis corresponds to the task of Perception Shift (Menini et al., 2023), namely, analysing changes in odour perception over time based on the observation of textual data. The general corpus on which the analysis was conducted consists of eight textual collections freely available on the web. These, together, form a diachronic corpus of English that covers a time span ranging from the 16th to the 20th century and concerns different domains. The corpus was annotated by the Odeuropa project group according to the principles of frame semantics: the olfactory information within the texts was first framed in a specific frame (Olfactory Frame) and then extracted. Subsequently, a benchmark was built with the aim of tracing the history over time of some selected odours. This resource has been used to evaluate the methodologies and systems implemented to analyse the change in odour perception over time. The methodologies that have been used for this analysis have been inspired by those related to the Semantic Shift task and are the following: (1) values of the Term Frequency – Inverse Document Frequency (TF-IDF) metric for each target word; (2) methodologies based on the study of the context and the co-occurrences, (3) methodologies based on Pointwise Mutual Information (PMI) metric values, (4) methodologies based on the Topic Modelling technique. The results, in addition to illustrating the change in odour perception over time, show that the selected techniques are all suitable for studying the different types of Perception Shift associated with them.
Questo lavoro di tesi si inserisce nell’ambito del progetto europeo Odeuropa, finalizzato allo sviluppo di nuove metodologie mirate all’estrazione dell’informazione olfattiva da raccolte di testi digitali. Lo scopo della ricerca presentata in questo elaborato corrisponde al task di Perception Shift (Menini et al., 2023): analizzare i cambiamenti di percezione degli odori nel tempo sulla base dell’osservazione di dati testuali. Il corpus generale su cui è stata condotta l’analisi è costituito da otto raccolte testuali disponibili liberamente sul web. Queste, insieme, vanno a formare un corpus diacronico di inglese che copre una finestra temporale che va dal XVI al XX secolo e che riguarda differenti domini. Il corpus è stato annotato dal gruppo del progetto Odeuropa secondo i principi della semantica dei frame: l’informazione olfattiva all’interno dei testi è stata prima inquadrata in uno specifico frame (Olfactory Frame) e poi estratta. In seguito, è stato costruito un benchmark con lo scopo di tracciare la storia nel tempo di alcuni odori selezionati. Questa risorsa è stata utilizzata per valutare le metodologie e i sistemi implementati per analizzare il cambiamento della percezione degli odori nel tempo. Le metodologie che sono state utilizzate per tale analisi sono state ispirate da quelle relative al task di Semantic Shift e sono le seguenti: (1) calcolo del valori della metrica Term Frequency – Inverse Document Frequency (TF-IDF) per ciascuna parola target; (2) metodologie basate sullo studio del contesto e delle co-occorrenze, (3) metodologie basate su valori della metrica Pointwise Mutual Information (PMI), (4) metodologie basate sulla tecnica del Topic Modelling. I risultati, oltre ad illustrare la variazione della percezione degli odori nel tempo, mostrano che le tecniche selezionate sono tutte adeguate allo studio dei diversi tipo di Cambiamento Percettivo ad esse associati.
Sul cambiamento di percezione degli odori nel tempo: analisi diacronica di dati testuali dal XVI al XX secolo.
BARZON, ILARIA
2023/2024
Abstract
This thesis is part of the European project Odeuropa, aimed at developing new methodologies designed to extract olfactory information from digital text collections. The aim of the research presented in this thesis corresponds to the task of Perception Shift (Menini et al., 2023), namely, analysing changes in odour perception over time based on the observation of textual data. The general corpus on which the analysis was conducted consists of eight textual collections freely available on the web. These, together, form a diachronic corpus of English that covers a time span ranging from the 16th to the 20th century and concerns different domains. The corpus was annotated by the Odeuropa project group according to the principles of frame semantics: the olfactory information within the texts was first framed in a specific frame (Olfactory Frame) and then extracted. Subsequently, a benchmark was built with the aim of tracing the history over time of some selected odours. This resource has been used to evaluate the methodologies and systems implemented to analyse the change in odour perception over time. The methodologies that have been used for this analysis have been inspired by those related to the Semantic Shift task and are the following: (1) values of the Term Frequency – Inverse Document Frequency (TF-IDF) metric for each target word; (2) methodologies based on the study of the context and the co-occurrences, (3) methodologies based on Pointwise Mutual Information (PMI) metric values, (4) methodologies based on the Topic Modelling technique. The results, in addition to illustrating the change in odour perception over time, show that the selected techniques are all suitable for studying the different types of Perception Shift associated with them.File | Dimensione | Formato | |
---|---|---|---|
tesi_barzon_definitiva.pdf
accesso aperto
Dimensione
3.42 MB
Formato
Adobe PDF
|
3.42 MB | Adobe PDF | Visualizza/Apri |
È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/29342