Everything started thanks to the interviews that I’ve conducted with the representatives of the different teams in GuesttoGuest. The CEOs Emmanuel Arnaud and Charles-Edouard Girard kindly gave me essential information to understand the context in which GuesttoGuest operates, from the core values to the way the ideas are managed, passing through the most important innovations implemented in these first 5 years of life. Thanks to the meeting with the Data Chief, Chloé Cornuéjols, and the individual who basically represents the R & D department of the Start-Up, Jean-Phlippe Dubus, I learned that the algorithm implemented for fraud detection is not machine learning. This is the reason why I’ve started collecting data to properly understand the reason of this choice. After studying the reasons of the failure of the latter, I developed my hypothesis: We need to reduce the number of false positives and false negatives as much as possible to allow the most effective and efficient implementation of a potential future machine learning. Based on the analysis of the literature, I have considered a sample composed by the most recent and representative data (last two weeks of November). Then, I’ve conducted a logistic regression using as dependent variable "Fraud" (0 = No; 1 = Yes) and as independent variables, the ones currently implemented by the algorithm. The analysis of the results led me to suggest changes in the weight attribution that each variable has in the measurement of the final fraud value. In particular, 5 variables out of 14 were found to be the most important, as well as statistically significant, in the detection of frauds (Cost of the exchange, number of previous exchanges, number of points left in the guest account, number of messages exchanged, use of the same IP). The changes concerned the method of calculating the score of each variable, a score that is added to form the final amount called "FraudSum".
Tutto è cominciato dalle interviste che ho condotto su tutti i rappresentanti dei vari team presenti in GuesttoGuest. Con le prime, i CEO Emmanuel Arnaud e Charles-Edouard Girard mi hanno gentilmente concesso informazioni essenziali per capire il contesto all'interno del quale GuesttoGuest opera, dai core values al modo in cui le idee vengono gestite, passando per le innovazioni più importanti implementate in questi primi 5 anni di vita. Dopo un lungo periodo di tempo passato a raccogliere quante più notizie possibili in giro per l'azienda, grazie all'incontro con la Data Chief, Chloé Cornuéjols, e la figura che impersonifica il reparto R&D della Start-Up, Jean-Phlippe Dubus, sono venuto a conoscenza del fatto che l'algoritmo implementato per la rivelazione delle frodi non è machine learning. Motivo per cui ho cominciato a raccogliere datio per capire effettivamente il perché di tale scelta. Dopo lo studio dei motivi che hanno portato a mantenere un algoritmo fisso, ho sviluppato la mia ipotesi: Bisogna ridurre il numero di falsi positivi e falsi negativi quanto più possibile per permettere un'implementazione quanto più efficace ed efficiente possibile del futuro machine learning. Sulla base dell'analisi della letteratura, ho preso in considerazione un campione di dati quanto più recente (ultime due settimane di Novembre), statisticamente rilevante e rappresentativo possibile. Ho quindi condotto una regressione logistica con variabile dipendente "Frode" (0 = No ; 1 = Sì) e con variabili indipendenti quelle attualmente implementate dall'algoritmo. L'analisi dei risultati mi ha portato a suggerire delle modifiche nell'attribuzione del peso che ciascuna variabile presenta nel calcolo del valore finale della frode. In particolare, 5 variabili su 14 sono risultate essere le più importanti, nonché statisticamente significative, nell'individuazione delle frodi (Costo dello scambio, numero di scambi precedenti, numero di punti rimasti nell'account dell'ospite, numero di messaggi scambiati, utilizzo dello stesso IP). Le modifiche hanno riguardato il metodo di calcolo del punteggio di ciascuna variabile, punteggio che va a sommarsi per formare l'ammontare finale chiamato appunto "FraudSum". Tali suggerimenti sono stati esposti alla data chief che li ha accettati e pienamente condivisi. Tutte le modifiche verranno implementate a partire dall'anno nuovo per un periodo di prova che verrà deciso dai responsabili a tempo debito.
SHARING ECONOMY AND FRAUD DETECTION: A QUANTITATIVE STUDY ON GUESTTOGUEST
PINTO, SIMONE
2016/2017
Abstract
Everything started thanks to the interviews that I’ve conducted with the representatives of the different teams in GuesttoGuest. The CEOs Emmanuel Arnaud and Charles-Edouard Girard kindly gave me essential information to understand the context in which GuesttoGuest operates, from the core values to the way the ideas are managed, passing through the most important innovations implemented in these first 5 years of life. Thanks to the meeting with the Data Chief, Chloé Cornuéjols, and the individual who basically represents the R & D department of the Start-Up, Jean-Phlippe Dubus, I learned that the algorithm implemented for fraud detection is not machine learning. This is the reason why I’ve started collecting data to properly understand the reason of this choice. After studying the reasons of the failure of the latter, I developed my hypothesis: We need to reduce the number of false positives and false negatives as much as possible to allow the most effective and efficient implementation of a potential future machine learning. Based on the analysis of the literature, I have considered a sample composed by the most recent and representative data (last two weeks of November). Then, I’ve conducted a logistic regression using as dependent variable "Fraud" (0 = No; 1 = Yes) and as independent variables, the ones currently implemented by the algorithm. The analysis of the results led me to suggest changes in the weight attribution that each variable has in the measurement of the final fraud value. In particular, 5 variables out of 14 were found to be the most important, as well as statistically significant, in the detection of frauds (Cost of the exchange, number of previous exchanges, number of points left in the guest account, number of messages exchanged, use of the same IP). The changes concerned the method of calculating the score of each variable, a score that is added to form the final amount called "FraudSum".È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/6819