Detecting Behavioral Randomness in Multiple-Choice Tests Through Gaze Dynamics

The increasing use of computer-based assessment in e-learning environments has highlighted the importance of process-oriented data for understanding test-taking behavior beyond response correctness. Among available process measures, eye-tracking data provide detailed information about attention allocation and visual engagement during task solving. Despite this potential, the detection of disengaged or random-like responding in digital assessments is often based on response time heuristics or accuracy-dependent criteria. Such criteria may not fully capture the behavioral structure underlying response processes. This thesis develops a structured and reproducible framework for identifying randomlike responding based on gaze-derived temporal engagement markers and response timing, independently of answer correctness. A three-stage analytical pipeline is proposed. First, raw eye-tracking data are preprocessed and mapped to predefined Areas of Interest (AOIs) representing relevant task regions. Second, an operational attention threshold ta is introduced to distinguish minimally engaged responses from more sustained engagement. Third, gaze-based behavioral features are derived to characterize response patterns independently of answer correctness. Random-like responding is thus defined as insufficient or structurally unorganized visual engagement with task-relevant regions rather than as incorrect responding. The framework is evaluated using eye-tracking data collected in an e-learning assessment setting. Behavioral and comparative analyses examine differences between engagement conditions, and sequence-based deep learning models are employed to explore temporal gaze patterns associated with varying levels of behavioral engagement. The results suggest that the proposed attention threshold may help differentiate systematic from random-like response behavior and that temporal models can capture structured gaze dynamics without relying on correctness information. Among the evaluated architectures, the LSTM model achieved the best performance under the reported hold-out evaluation setup, reaching an accuracy of 76.47% and an F1-score of 82.86%. The thesis contributes a methodologically transparent approach to behavioral validity analysis in digital assessment contexts.

Il crescente impiego di sistemi di valutazione basati sul computer nel contesto dell’elearning ha evidenziato la rilevanza dei dati orientati ai processi per l’analisi delle risposte degli utenti nell’interazione con i sistemi di valutazione digitali, andando oltre la sola valutazione della correttezza delle risposte di per sé. In tale contesto, i dati di eye tracking costituiscono una fonte informativa rilevante per lo studio dell’attenzione visiva e del livello di coinvolgimento comportamentale durante la risposta a domande a scelta multipla. Nonostante questo potenziale, l’individuazione di risposte fornite casualmente, senza impegno, è spesso basata su euristiche legate solo ai tempi di risposta o su criteri di accuratezza, che possono non riflettere adeguatamente il comportamento dell’utente. La presente tesi propone un framework strutturato e riproducibile per l’identificazione di comportamenti di risposta casuali, basato su indicatori ottenuti tramite eye tracking e sui tempi di risposta, indipendentemente dalla correttezza delle risposte fornite. Il framework è articolato in una pipeline analitica composta da tre fasi principali. In primo luogo, i dati grezzi di eye tracking vengono preelaborati e associati a specifiche Aree di Interesse (Areas of Interest, AOI) che rappresentano le regioni rilevanti del quesito. In secondo luogo, viene introdotta una soglia operativa di attenzione ta, finalizzata a distinguere risposte caratterizzate da un coinvolgimento visivo minimo da risposte associate a un’attenzione più sostenuta. In terzo luogo, vengono estratte caratteristiche comportamentali basate sullo sguardo, progettate per descrivere i pattern di risposta in modo indipendente dall’accuratezza. In questo approccio, il comportamento di risposta di tipo casuale è definito come un coinvolgimento visivo insufficiente o strutturalmente disorganizzato sulle AOI rilevanti, anziché come una semplice risposta errata. Il framework proposto viene valutato utilizzando dati di eye tracking raccolti in un contesto di valutazione in ambiente e-learning. Analisi comportamentali e comparative consentono di esaminare le differenze tra diverse condizioni di coinvolgimento, mentre modelli di deep learning basati su sequenze temporali vengono impiegati per analizzare i pattern dinamici dello sguardo associati ai diversi livelli di engagement comportamentale. I risultati sperimentali indicano che la soglia di attenzione proposta contribuisce alla distinzione tra comportamenti di risposta sistematici e comportamenti di tipo random-like e che i modelli temporali sono in grado di catturare dinamiche strutturate dello sguardo senza utilizzare informazioni sulla correttezza delle risposte. Tra le architetture valutate, il modello LSTM ha ottenuto le migliori prestazioni nella configurazione di valutazione hold-out adottata, raggiungendo un’accuratezza del 76,47% e un F1-score pari all’82,86%. La tesi fornisce un contributo metodologicamente solido e trasparente all’analisi della validità comportamentale nei contesti di valutazione digitale, con potenziali appli cazioni nello sviluppo di sistemi di assessment intelligenti e adattivi.