Lo Speech Emotion Recognition (SER) consiste nello sviluppo di modelli computazionali volti a decodificare lo stato emotivo di un soggetto mediante la sola analisi della microstruttura acustica del parlato, escludendo il contenuto semantico del discorso. Nonostante l’impiego di architetture di Deep Learning abbia migliorato la capacità di estrarre pattern prosodici complessi, l’analisi della letteratura evidenzia spesso criticità legate alle metodologie di validazione. Un errore ricorrente risiede nell’applicazione della Data Augmentation prima della separazione tra i set di addestramento e di test. Tale incoerenza procedurale determina inevitabilmente il problema del Data Leakage, inducendo il modello a memorizzare l’impronta biometrica del parlante o le variabili ambientali a discapito dei tratti emotivi. Ne consegue una sistematica sovrastima delle prestazioni che, di fatto, invalida la reale capacità di generalizzazione del sistema. Il presente lavoro di tesi si propone di sviluppare una pipeline di classificazione robusta, ponendo particolare attenzione al rigore metodologico nella fase di addestramento, per poi verificare l’applicabilità di queste tecniche in ambito biomedico. Nella prima fase del progetto, lo studio si è focalizzato sul riconoscimento delle emozioni utilizzando i dataset pubblici RAVDESS ed EMO-DB. L’elaborazione si è basata sull’estrazione ed il confronto di molteplici set di feature acustiche (cepstrali, prosodiche e fisiche), al fine di isolare i biomarcatori emotivi maggiormente generalizzabili. Lo spazio delle feature, così definito, è stato poi elaborato tramite un’architettura 1D-CLDNN integrata con un modulo di Self-Attention. Per garantire la robustezza dei risultati e minimizzare il rischio di overfitting, si è utilizzato un protocollo di Nested Cross-Validation a 10 fold. All’interno di questa architettura, ogni singolo processo di ottimizzazione è stato eseguito esclusivamente sul training set, mantenendo il test set completamente isolato. Nella seconda fase, l’approccio metodologico è stato utilizzato per la ricerca di biomarcatori vocali nel contesto del Disturbo dello Spettro Autistico (ASD). Lo studio ha previsto la validazione dei modelli non solo sul corpus pubblico ASDBank, ma anche su un secondo dataset sperimentale. Date le limitazioni dovute alle ridotte dimensioni dei campioni e alla complessità dei dati, si è scelto di adottare una strategia di Transfer Learning. Nello specifico, si è utilizzato il modello pre-addestrato VGGish per estrarre rappresentazioni numeriche (embedding) del segnale audio. Questo ha permesso di confrontare i profili vocali tra il gruppo clinico e quello di controllo, identificando le differenze nella prosodia e nel ritmo tipiche dell’autismo. L’analisi dei dati evidenzia come l’impiego di protocolli di validazione rigorosi porti a risultati più contenuti rispetto alle stime spesso ottimistiche presenti in letteratura, ma maggiormente rappresentativi dell’effettiva sovrapposizione acustica del parlato. Nonostante la difficoltà dei modelli nel separare in modo netto gli stati affettivi, il lavoro di tesi definisce un approccio metodologico riproducibile e rappresenta un punto di partenza concreto per valutare le reali potenzialità dell’analisi vocale in ambito clinico.
Analisi della Voce mediante Deep Learning: Riconoscimento delle emozioni come supporto alla diagnosi del Disturbo dello Spettro Autistico
IOZZI, MARTINA
2024/2025
Abstract
Lo Speech Emotion Recognition (SER) consiste nello sviluppo di modelli computazionali volti a decodificare lo stato emotivo di un soggetto mediante la sola analisi della microstruttura acustica del parlato, escludendo il contenuto semantico del discorso. Nonostante l’impiego di architetture di Deep Learning abbia migliorato la capacità di estrarre pattern prosodici complessi, l’analisi della letteratura evidenzia spesso criticità legate alle metodologie di validazione. Un errore ricorrente risiede nell’applicazione della Data Augmentation prima della separazione tra i set di addestramento e di test. Tale incoerenza procedurale determina inevitabilmente il problema del Data Leakage, inducendo il modello a memorizzare l’impronta biometrica del parlante o le variabili ambientali a discapito dei tratti emotivi. Ne consegue una sistematica sovrastima delle prestazioni che, di fatto, invalida la reale capacità di generalizzazione del sistema. Il presente lavoro di tesi si propone di sviluppare una pipeline di classificazione robusta, ponendo particolare attenzione al rigore metodologico nella fase di addestramento, per poi verificare l’applicabilità di queste tecniche in ambito biomedico. Nella prima fase del progetto, lo studio si è focalizzato sul riconoscimento delle emozioni utilizzando i dataset pubblici RAVDESS ed EMO-DB. L’elaborazione si è basata sull’estrazione ed il confronto di molteplici set di feature acustiche (cepstrali, prosodiche e fisiche), al fine di isolare i biomarcatori emotivi maggiormente generalizzabili. Lo spazio delle feature, così definito, è stato poi elaborato tramite un’architettura 1D-CLDNN integrata con un modulo di Self-Attention. Per garantire la robustezza dei risultati e minimizzare il rischio di overfitting, si è utilizzato un protocollo di Nested Cross-Validation a 10 fold. All’interno di questa architettura, ogni singolo processo di ottimizzazione è stato eseguito esclusivamente sul training set, mantenendo il test set completamente isolato. Nella seconda fase, l’approccio metodologico è stato utilizzato per la ricerca di biomarcatori vocali nel contesto del Disturbo dello Spettro Autistico (ASD). Lo studio ha previsto la validazione dei modelli non solo sul corpus pubblico ASDBank, ma anche su un secondo dataset sperimentale. Date le limitazioni dovute alle ridotte dimensioni dei campioni e alla complessità dei dati, si è scelto di adottare una strategia di Transfer Learning. Nello specifico, si è utilizzato il modello pre-addestrato VGGish per estrarre rappresentazioni numeriche (embedding) del segnale audio. Questo ha permesso di confrontare i profili vocali tra il gruppo clinico e quello di controllo, identificando le differenze nella prosodia e nel ritmo tipiche dell’autismo. L’analisi dei dati evidenzia come l’impiego di protocolli di validazione rigorosi porti a risultati più contenuti rispetto alle stime spesso ottimistiche presenti in letteratura, ma maggiormente rappresentativi dell’effettiva sovrapposizione acustica del parlato. Nonostante la difficoltà dei modelli nel separare in modo netto gli stati affettivi, il lavoro di tesi definisce un approccio metodologico riproducibile e rappresenta un punto di partenza concreto per valutare le reali potenzialità dell’analisi vocale in ambito clinico.| File | Dimensione | Formato | |
|---|---|---|---|
|
TesiMagistrale_MartinaIozzi.pdf
accesso aperto
Dimensione
14.22 MB
Formato
Adobe PDF
|
14.22 MB | Adobe PDF | Visualizza/Apri |
È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/35064