Previous research showed that decision-makers often put more trust in human expertise than in machine learning. But do experts really provide more accurate predictions than mathematical models? The main goal of this thesis is to assess the value of a state-of-the-art machine learning model for a typical prediction challenge. Therefore, we test LSTM neural networks for the prediction of football match outcomes in the German Bundesliga and compare the results with the accuracy of human experts. To conduct our study, we collect a large variety of football data from public online sources via automatized web scraping. After preprocessing the collected match, team and player data, different feature selection techniques help to identify powerful predictor variables. We fine-tune the LSTM network by testing 23,328 different hyperparameter combinations in a grid search. The best hyperparameter settings are selected for our final LSTM network. Then, we evaluate the prediction performance of our LSTM model on an additional hold-out sample and compare the prediction results with the forecasts of experts, bookmakers and other prediction models. The results show that our LSTM network clearly outperforms all comparison methods in terms of prediction accuracy and profitability. Through betting on our model’s predictions, we achieve a mean return on investment of 35.31% and deduce relevant implications for the marketing context.
Ricerche precedenti hanno dimostrato che i responsabili delle decisioni spesso ripongono più fiducia nelle competenze umane che nell'apprendimento automatico. Ma gli esperti forniscono davvero previsioni più accurate dei modelli matematici? L'obiettivo principale di questa tesi è quello di stimare il valore di un modello di apprendimento automatico avanzato per una tipica sfida di previsione. Pertanto, testiamo le reti neurali LSTM per la previsione dei risultati delle partite di calcio nella Bundesliga tedesca e confrontiamo i risultati con l'accuratezza degli esperti umani. Per realizzare il nostro studio, raccogliamo una grande varietà di dati sul calcio da fonti pubbliche online attraverso il web scraping automatizzato. Dopo aver pre-elaborato i dati raccolti su partite, squadre e giocatori, diverse tecniche di selezione delle caratteristiche aiutano a identificare potenti variabili predittive. Poi affiniamo la rete LSTM testando 23.328 diverse combinazioni di iperparametri in una ricerca a griglia. Le migliori impostazioni degli iperparametri vengono selezionate per la nostra rete LSTM finale. Infine, valutiamo le prestazioni di previsione del nostro modello LSTM su un ulteriore campione di validazione e confrontiamo i risultati di previsione con le predizioni di esperti, bookmaker e altri modelli di previsione. I risultati mostrano che la nostra rete LSTM supera chiaramente tutti i metodi di confronto in termini di precisione di previsione e profittabilità. Scommettendo sulle previsioni del nostro modello, otteniamo un ritorno medio sugli investimenti del 35,31% e deduciamo implicazioni rilevanti per il contesto di marketing.
Machine Learning vs. Human Expertise - The Value of LSTM Neural Networks for Football Match Predictions
OESS, MOYAN STEFAN
2019/2020
Abstract
Previous research showed that decision-makers often put more trust in human expertise than in machine learning. But do experts really provide more accurate predictions than mathematical models? The main goal of this thesis is to assess the value of a state-of-the-art machine learning model for a typical prediction challenge. Therefore, we test LSTM neural networks for the prediction of football match outcomes in the German Bundesliga and compare the results with the accuracy of human experts. To conduct our study, we collect a large variety of football data from public online sources via automatized web scraping. After preprocessing the collected match, team and player data, different feature selection techniques help to identify powerful predictor variables. We fine-tune the LSTM network by testing 23,328 different hyperparameter combinations in a grid search. The best hyperparameter settings are selected for our final LSTM network. Then, we evaluate the prediction performance of our LSTM model on an additional hold-out sample and compare the prediction results with the forecasts of experts, bookmakers and other prediction models. The results show that our LSTM network clearly outperforms all comparison methods in terms of prediction accuracy and profitability. Through betting on our model’s predictions, we achieve a mean return on investment of 35.31% and deduce relevant implications for the marketing context.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/222