An advanced analytics approach to build a custom scoring model for Airbnb reviews

Airbnb is a sharing economy platform used by hosts for renting extra space in their houses or even other properties they may have. An important aspect of this platform is that users are allowed to comment and assign a score to their experiences after using the platform to make a reservation. Therefore, users’ scores along with their reviews represent a peculiar source of knowledge to understand the dynamics underlying this social platform. However, in the literature, several researchers have proved that there is a strong bias in the scores assigned by users, so that it is not a reliable parameter to assess how good a service is in Airbnb. Following this observation, this thesis tackles this problem and proposes an approach, based on the analysis of users' reviews of Airbnb, to uncover some trends in the way people write reviews and assign scores. In particular, as a first contribution, it performs an advanced feature engineering task on Airbnb reviews by using a combination of text mining and NLP techniques to derive the subject of discussion, the feeling expressed and the subjectivity level of the overall opinion contained in a review. After this, it leverages some of these basic features to derive to what extent the service is perceived as regulated by social vs business norms in a review. Finally, the knowledge patterns obtained in the previous steps are, then, exploited to build a custom scoring model with the objective of fixing the bias in the original scores from users in Airbnb.

Un approccio di advanced analytics per la costruzione di un modello di punteggio ad-hoc per le recensioni di Airbnb. Airbnb è una piattaforma di sharing economy usata da proprietari per affittare spazio addizionale nella loro abitazione o in altre proprietà da loro possedute. Un aspetto importante di questa piattaforma è la possibilità per gli utenti di commentare e assegnare un punteggio (o score) alle loro esperienze dopo aver utilizzato la piattaforma per effettuare una prenotazione. Pertanto, gli score degli utenti insieme alle loro recensioni rappresentano una particolare fonte di conoscenza per comprendere le dinamiche sottostanti a questa piattaforma sociale. Tuttavia, in letteratura, diversi ricercatori hanno dimostrato che esiste un forte bias nei punteggi assegnati dagli utenti che quindi non è un parametro affidabile per valutare quanto sia buono un servizio in Airbnb. Partendo da queste motivazioni, questa tesi affronta il problema dell’inaffidabilità degli score in Airbnb e propone un approccio, basato sull'analisi delle recensioni degli utenti di Airbnb, per scoprire alcune tendenze nel modo in cui le persone scrivono recensioni e assegnano punteggi. In particolare, come primo contributo, svolge un'attività di feature engineering avanzata sulle recensioni di Airbnb utilizzando una combinazione di tecniche di text mining e NLP per ricavare l'oggetto della discussione di una review, il sentimento espresso e il livello di soggettività dell'opinione complessiva in essa contenuta. Successivamente, l’approccio proposto sfrutta alcune di queste caratteristiche di base per derivare in che misura in una review il servizio è percepito come regolato dalle norme sociali rispetto alle norme commerciali. Infine, i knowledge patterns ottenuti nei passi precedenti vengono, quindi, sfruttati per costruire un modello di punteggio personalizzato con l'obiettivo di correggere il bias nei punteggi originali degli utenti di Airbnb.