Web robot traffic represents a significant fraction of the entire web traffic. Thus, it can easily lead to bandwidth saturation and overload conditions of web servers. To minimize performance degradation and avoid security issues, it is therefore fundamental to detect web robots in a timely manner. This thesis work focuses on the problem of offline web robot detection. More precisely, the approach relies on the analysis of web logs by means of analytical techniques, namely, a family of machine learning algorithms known as classifiers. Feature selection is a critical step for the classifiers to work correctly in a machine learning pipeline. The classifiers are trained using features extracted by inspecting web logs. The solution is a “multi-class” classification where “visitors” are subdivided into three different classes: human visitors, good web robots and bad web robots.
Tecniche di Apprendimento Supervisionato per Web Robot Detection. Il traffico dei web robot costituisce una significativa frazione dell'intero traffico web. Per questo motivo, i web robot possono portare a problemi come saturazione di banda o sovraccarico di server web. Per minimizzare problemi legati alle performance e alla sicurezza, diventa quindi fondamentale rilevare web robot tempestivamente. Questo lavoro di tesi tratta il problema di rilevazione offline di web robot. Più precisamente, l'approccio seguito si basa sull'analisi di log di web server utilizzando tecniche analitiche, in particolare, una famiglia di algoritmi di machine learning chiamati classificatori. La procedura di selezione delle caratteristiche discriminanti è critica in una pipeline di machine learning. I classificatori vengono costruiti utilizzando caratteristiche estratte dai log dei web server. La soluzione è di tipo "multi-classe" dove i "visitatori" vengono suddivisi in tre classi differenti: visitatori umani, web robot benevoli e web robot malevoli.
Supervised Learning Techniques for Web Robot Detection.
NEBBIONE, GIUSEPPE
2016/2017
Abstract
Web robot traffic represents a significant fraction of the entire web traffic. Thus, it can easily lead to bandwidth saturation and overload conditions of web servers. To minimize performance degradation and avoid security issues, it is therefore fundamental to detect web robots in a timely manner. This thesis work focuses on the problem of offline web robot detection. More precisely, the approach relies on the analysis of web logs by means of analytical techniques, namely, a family of machine learning algorithms known as classifiers. Feature selection is a critical step for the classifiers to work correctly in a machine learning pipeline. The classifiers are trained using features extracted by inspecting web logs. The solution is a “multi-class” classification where “visitors” are subdivided into three different classes: human visitors, good web robots and bad web robots.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/23396