Le influenze del contesto sul valore della scelta nell'apprendimento per rinforzo umano

Reinforcement learning research in human and other species indicates that rewards are represented in a context-dependent manner, yet the computational mechanisms through which context shapes subjective value remain debated. Recent work suggests that value representations in human reinforcement learning may follow a comparison bonus mechanism, whereby the subjective value of an option increases with the number of available alternatives. In the present thesis, we investigated this hypothesis by conducting three experiments – two online and one laboratory-based with eye-tracking – using a probabilistic reinforcement learning task, where we manipulated the number of choice options available during learning. Across studies, behavioural results revealed modest effects of choice set size. In Experiment 1, the best option showed an increased subjective value in larger sets, but this effect was not consistently replicated in Experiments 2 and 3. Eye-tracking data did not provide substantial support for an attentional or gaze-based comparison mechanism. Overall, our findings do not go in the direction of the comparison bonus hypothesis, yet they confirm that choice set size can modulate value learning. These results to ongoing efforts to refine computational accounts of context-dependent valuation in human reinforcement learning.

Le ricerche sull’apprendimento per rinforzo negli esseri umani e in altre specie indicano che le ricompense vengono rappresentate in base al contesto, tuttavia i meccanismi computazionali attraverso i quali il contesto modula il valore soggettivo rimangono ancora oggetto di dibattito. Lavori recenti suggeriscono che le rappresentazioni del valore soggettivo nell’apprendimento per rinforzo nell’uomo potrebbero seguire un meccanismo di confronto positivo, per cui il valore soggettivo di un’opzione aumenta con il numero di alternative disponibili. Nella presente tesi, abbiamo indagato questa ipotesi conducendo tre esperimenti – due online e uno in laboratorio con eye-tracking – utilizzando un compito di apprendimento per rinforzo probabilistico, in cui abbiamo manipolato il numero di opzioni di scelta disponibili durante l’apprendimento. Nei diversi studi, i risultati comportamentali hanno rivelato modesti effetti della dimensione del set di scelta. Nell’Esperimento 1, l’opzione migliore mostrava un aumento del valore soggettivo nei set più grandi, ma questo effetto non è stato replicato in modo consistente negli Esperimenti 2 e 3. I dati dell’eye-tracking non hanno fornito supporto sostanziale ad un possibile meccanismo di confronto positivo a livello attenzionale. In generale, i nostri risultati non supportano l’ipotesi del meccanismo di confronto positivo, tuttavia confermano che la dimensione del set di scelta può modulare l’apprendimento del valore. Questi risultati contribuiscono agli sforzi in corso per raffinare i modelli computazionali della valutazione dipendente dal contesto nell’apprendimento per rinforzo umano.