LA PREDICIBILITÀ DEL TESTO SCRITTO: norme di Cloze Probability per il database MECO

In recent years, psycholinguistic research has increasingly adopted large-scale approaches based on eye-tracking techniques, enabling the investigation of the cognitive processes underlying text comprehension in ecological conditions. One of the most influential projects in this domain is the Multilingual Eye-Movement Corpus (MECO), developed by Siegelman and colleagues (2022). It is a collaborative multi-lab database that collects eye movement data during continuous text reading across 13 different languages. The MECO corpus has enabled the identification of both universal and language-specific patterns of cross-linguistic oculomotor behavior, revealing that visuo-oculomotor factors—particularly word length and skipping rate—constitute the main predictors of between-language differences. However, the MECO corpus presents a critical limitation: the absence of direct measures of contextual lexical predictability. A word's predictability in its context, typically measured through cloze probability, represents one of the most influential factors in reading processing, affecting both word skipping probability and fixation times. Empirical evidence indicates that predictability operates by facilitating early or pre-lexical processing stages through mechanisms of graded and diffuse activation. Without predictability measures, the MECO corpus effectively captures bottom-up processes—those driven by the visual features of the stimulus—but does not allow for the investigation of top-down processes—those driven by contextual expectations—or their interaction. The present study, conducted in collaboration with the University of Milano-Bicocca, aims to fill this gap by developing cloze probability norms for the 12 Italian texts of the MECO corpus. One hundred and eighty native Italian speakers completed an online cloze task in which they were asked to type the most probable next word in relation to the presented context. Texts were randomly distributed across 6 lists, with each text rated by 30 participants. The collected data will provide cloze probability values for each lexical token of the Italian MECO texts, enriching the corpus with an essential semantic-contextual dimension. This contribution represents one of the first attempts to build a systematic database of lexical predictability for Italian texts and will offer a useful tool for investigating the interaction between visual and contextual factors in oculomotor patterns. Moreover, it will support the evaluation of computational models of language processing and the examination of the validity of predictability measures derived from Large Language Models (LLMs), contributing to expanding research beyond English, which currently dominates the field.

Negli ultimi anni, la ricerca psicolinguistica ha adottato sempre più frequentemente approcci a larga scala basati su tecniche di eye-tracking, permettendo di indagare i processi cognitivi sottostanti alla comprensione del testo in condizioni ecologiche. Uno dei progetti più influenti in questo ambito è il Multilingual Eye-Movement Corpus (MECO), sviluppato da Siegelman e colleghi (2022). Si tratta di un database collaborativo multi-laboratorio che raccoglie dati di movimenti oculari durante la lettura di testi continui in 13 lingue diverse. Il corpus MECO ha permesso di identificare pattern universali e specifici del comportamento oculomotorio cross-linguistico, rivelando che fattori visuo-oculomotori, in particolare la lunghezza delle parole e il tasso di skipping, costituiscono i principali predittori delle differenze tra lingue. Tuttavia, il corpus MECO presenta una criticità, ovvero l'assenza di misure dirette di predicibilità lessicale contestuale. La predicibilità di una parola nel suo contesto, tipicamente misurata attraverso la cloze probability, rappresenta uno dei fattori più influenti sul processamento durante la lettura, influenzando sia la probabilità di saltare una parola sia i tempi di fissazione. Le evidenze empiriche indicano che la predicibilità opera facilitando stadi precoci o pre-lessicali dell'elaborazione attraverso meccanismi di attivazione graduale e diffusa. Senza misure di predicibilità, il corpus MECO cattura efficacemente i processi bottom-up, ovvero quelli guidati dalle caratteristiche visive dello stimolo, ma non permette di investigare i processi top-down, i processi guidati dalle aspettative contestuali, né la loro interazione. Il presente studio, condotto in collaborazione con l'Università degli Studi di Milano-Bicocca, si propone di colmare questa lacuna sviluppando norme di cloze probability per i 12 testi italiani del corpus MECO. Nel contesto di uno studio più ampio, tale lavoro di tesi presenta i dati di 139 parlanti nativi italiani, i quali hanno completato un compito di cloze probability online in cui veniva chiesto di digitare la parola successiva più probabile, in relazione al contesto presentato. I dati raccolti forniranno valori di cloze probability per ogni token lessicale dei testi MECO italiani, arricchendo il corpus con una dimensione semantico-contestuale essenziale. Tale contributo costituisce uno dei primi tentativi di costruzione di un database sistematico di predicibilità lessicale per testi in italiano e potrà offrire uno strumento utile per indagare l’interazione tra fattori visivi e contestuali nei pattern oculomotori. Inoltre, potrà supportare la valutazione di modelli computazionali del processamento linguistico e l’esame della validità di misure di predicibilità derivate da Large Language Models (LLM), contribuendo ad ampliare la ricerca in lingue diverse dall’inglese, attualmente prevalente nel settore.