A machine learning approach to detect phishing emails and websites

Email services are among the most popular services used nowadays by individuals to communicate. Many email messages are exchanged every day over the Internet for business and personal purposes. The popularity of these services is often exploited by criminals for illegal activities, thus many security threats affect the service. One of the most serious threats is represented by phishing, that is, a computer fraud that exploits technical weaknesses of email services by combining fake websites and social engineering techniques to steal various types of sensitive data. Because of this threat, several million dollars are lost every year by companies and organizations. Hence, it is of paramount importance to develop systems able to effectively detect phishing attacks. This thesis work presents the design and development of a machine learning-based solution to detect phishing emails and fake websites used by phishers to fool their victims. These classifiers can be used in isolation or in combination to create a more robust detection system. The features proposed to effectively identify phishing attacks take into consideration the evasion techniques used by criminals. Three state-of-the-art machine learning models for classification are applied and their performance assessed using different metrics. The accuracy of the trained models is very good and exceeds 98%. The combined approach provides even better performance, reducing the percentage of phishing email messages not correctly detected.

Un approccio basato sul machine learning per rilevare email e siti Web di phishing. I servizi di posta elettronica sono tra i servizi più popolari utilizzati al giorno d'oggi dalle persone per comunicare. Molti messaggi di posta elettronica vengono scambiati ogni giorno su Internet per scopi aziendali e personali. La popolarità di questi servizi è spesso sfruttata dai criminali per attività illegali, quindi molte minacce alla sicurezza colpiscono il servizio. Una delle minacce più gravi è rappresentata dal phishing, ovvero una frode informatica che sfrutta le debolezze tecniche dei servizi email combinando siti web fasulli e tecniche di social engineering per sottrarre vari tipi di dati sensibili. A causa di questa minaccia, ogni anno le aziende e le organizzazioni perdono diversi milioni di dollari. Pertanto, è di fondamentale importanza sviluppare sistemi in grado di rilevare efficacemente gli attacchi di phishing. Questo lavoro di tesi presenta la progettazione e lo sviluppo di una soluzione basata sul machine learning per rilevare email di phishing e siti Web falsi utilizzati dai phisher per ingannare le loro vittime. Questi classificatori possono essere utilizzati isolatamente o in combinazione per creare un sistema di rilevamento più robusto. Le features proposte per identificare efficacemente gli attacchi di phishing tengono conto delle tecniche di evasione utilizzate dai criminali. Vengono utilizzati tre modelli di machine learning allo stato dell'arte per la classificazione e le loro prestazioni valutate utilizzando metriche diverse. La precisione dei modelli addestrati è molto buona e supera il 98%. L'approccio combinato offre prestazioni ancora migliori, riducendo la percentuale di messaggi email di phishing non rilevati correttamente.