La valutazione linguistica riveste un ruolo centrale nella società contemporanea, incidendo su percorsi educativi, opportunità professionali e, in alcuni casi, sull’accesso a diritti fondamentali quali la cittadinanza o la richiesta di asilo. In questo contesto, la crescente domanda di strumenti di certificazione linguistica ha favorito negli ultimi decenni un’evoluzione significativa del Language Testing, sia sul piano teorico sia su quello tecnologico. Nonostante tali sviluppi, la valutazione automatizzata delle abilità produttive rappresenta ancora una delle principali sfide del settore, a causa della complessità dei processi linguistici coinvolti e della difficoltà di sviluppare sistemi di scoring validi e affidabili. Il presente lavoro si colloca all’intersezione tra Second Language Acquisition, Language Testing e Linguistica Computazionale e si propone di contribuire allo sviluppo di strumenti per la valutazione automatizzata delle competenze produttive nell’italiano L2. In particolare, la ricerca presenta ETET, una web-app progettata per valutare le abilità linguistiche attraverso l’integrazione di tecnologie di Automated Essay Scoring e Automated Speaking Assessment, basate su strumenti di elaborazione automatica del linguaggio naturale quali Automatic Speech Recognition, Text-to-Speech e Large Language Models. Dopo aver delineato il quadro teorico e metodologico di riferimento, il lavoro descrive il processo di progettazione e realizzazione dello strumento, illustrando le scelte che hanno guidato la costruzione delle diverse sezioni del test. Successivamente, il sistema è stato sottoposto a una procedura di validazione tramite una sperimentazione pilota condotta su apprendenti di italiano L2, con l’obiettivo di valutare le prestazioni del modello nelle sezioni di produzione scritta e orale. I punteggi assegnati automaticamente dal sistema sono stati confrontati con un gold standard costruito a partire dalle valutazioni di annotatori umani esperti. Le prestazioni del modello sono state quindi analizzate attraverso metriche quali la Cohen’s Weighted Kappa, il Mean Absolute Error (MAE) e il bias medio. I risultati evidenziano un accordo moderato con il benchmark umano per la produzione scritta e prestazioni più limitate per la produzione orale, mettendo in luce sia il potenziale sia le attuali criticità dei sistemi di valutazione automatizzata
Progettazione e validazione di un modello automatizzato per la valutazione dell’italiano come L2: il sistema ETET.
VIGNOLI, ANNA
2024/2025
Abstract
La valutazione linguistica riveste un ruolo centrale nella società contemporanea, incidendo su percorsi educativi, opportunità professionali e, in alcuni casi, sull’accesso a diritti fondamentali quali la cittadinanza o la richiesta di asilo. In questo contesto, la crescente domanda di strumenti di certificazione linguistica ha favorito negli ultimi decenni un’evoluzione significativa del Language Testing, sia sul piano teorico sia su quello tecnologico. Nonostante tali sviluppi, la valutazione automatizzata delle abilità produttive rappresenta ancora una delle principali sfide del settore, a causa della complessità dei processi linguistici coinvolti e della difficoltà di sviluppare sistemi di scoring validi e affidabili. Il presente lavoro si colloca all’intersezione tra Second Language Acquisition, Language Testing e Linguistica Computazionale e si propone di contribuire allo sviluppo di strumenti per la valutazione automatizzata delle competenze produttive nell’italiano L2. In particolare, la ricerca presenta ETET, una web-app progettata per valutare le abilità linguistiche attraverso l’integrazione di tecnologie di Automated Essay Scoring e Automated Speaking Assessment, basate su strumenti di elaborazione automatica del linguaggio naturale quali Automatic Speech Recognition, Text-to-Speech e Large Language Models. Dopo aver delineato il quadro teorico e metodologico di riferimento, il lavoro descrive il processo di progettazione e realizzazione dello strumento, illustrando le scelte che hanno guidato la costruzione delle diverse sezioni del test. Successivamente, il sistema è stato sottoposto a una procedura di validazione tramite una sperimentazione pilota condotta su apprendenti di italiano L2, con l’obiettivo di valutare le prestazioni del modello nelle sezioni di produzione scritta e orale. I punteggi assegnati automaticamente dal sistema sono stati confrontati con un gold standard costruito a partire dalle valutazioni di annotatori umani esperti. Le prestazioni del modello sono state quindi analizzate attraverso metriche quali la Cohen’s Weighted Kappa, il Mean Absolute Error (MAE) e il bias medio. I risultati evidenziano un accordo moderato con il benchmark umano per la produzione scritta e prestazioni più limitate per la produzione orale, mettendo in luce sia il potenziale sia le attuali criticità dei sistemi di valutazione automatizzata| File | Dimensione | Formato | |
|---|---|---|---|
|
Tesi_Vignoli.pdf
accesso aperto
Dimensione
4.62 MB
Formato
Adobe PDF
|
4.62 MB | Adobe PDF | Visualizza/Apri |
È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/34383