Website fingerprinting is a security attack aimed at weakening the confidentiality of web navigation. This attack consists of identifying the websites visited by users by observing the generated network traffic. Research in this field acquired particular relevance in recent years with the increased use of cryptography in network communications and the possibility for users to make use of systems like Tor or VPN tunnels to conceal their web activity. This thesis work aims at studying fingerprinting attacks in the framework of the recently standardized QUIC protocol. The proposed approach consists in collecting a dataset of measurements of QUIC and TLS network traffic, extracting different sets of features and training of a machine learning algorithm for classifying future visits to a selection of websites. The obtained model achieves an accuracy up to 98% in classifying the first 100 sites from the Alexa Top 1M Sites list when trained over a dataset of 245.000 traffic samples.

Approccio Metodologico al Riconoscimento di Traffico Web Criptato. Il fingerprinting di siti web è un attacco di rete mirato a vanificare la riservatezza della navigazione sul web. Questo attacco consiste nell'identificare i siti visitati dagli utenti osservandone il traffico di rete generato. La ricerca in questo ambito ha acquisito rilevanza negli ultimi anni con il crescente uso di crittografia nelle trasmissioni via rete e la possibilità da parte degli utenti di usare sistemi come Tor o tunnel VPN per mantenere private le proprie attività sul web. Questo elaborato propone uno studio degli attacchi di fingerprinting a fronte della recente standardizzazione del protocollo QUIC. L'approccio proposto consiste nella raccolta di un dataset di misure di traffico di rete QUIC e TLS, ottenerne diversi insiemi di caratteristiche e addestrare un algoritmo di apprendimento capace di classificare future visite a una selezione di siti web. Il modello ottenuto è capace di classificare i primi 100 siti web della lista Alexa Top 1M Sites con una precisione fino al 98% quando addestrato su un dataset di 245.000 campioni di traffico di rete.

A Methodological Approach to Fingerprint Encrypted Web Traffic

ZANUSSI, LUCA
2021/2022

Abstract

Website fingerprinting is a security attack aimed at weakening the confidentiality of web navigation. This attack consists of identifying the websites visited by users by observing the generated network traffic. Research in this field acquired particular relevance in recent years with the increased use of cryptography in network communications and the possibility for users to make use of systems like Tor or VPN tunnels to conceal their web activity. This thesis work aims at studying fingerprinting attacks in the framework of the recently standardized QUIC protocol. The proposed approach consists in collecting a dataset of measurements of QUIC and TLS network traffic, extracting different sets of features and training of a machine learning algorithm for classifying future visits to a selection of websites. The obtained model achieves an accuracy up to 98% in classifying the first 100 sites from the Alexa Top 1M Sites list when trained over a dataset of 245.000 traffic samples.
2021
A Methodological Approach to Fingerprint Encrypted Web Traffic
Approccio Metodologico al Riconoscimento di Traffico Web Criptato. Il fingerprinting di siti web è un attacco di rete mirato a vanificare la riservatezza della navigazione sul web. Questo attacco consiste nell'identificare i siti visitati dagli utenti osservandone il traffico di rete generato. La ricerca in questo ambito ha acquisito rilevanza negli ultimi anni con il crescente uso di crittografia nelle trasmissioni via rete e la possibilità da parte degli utenti di usare sistemi come Tor o tunnel VPN per mantenere private le proprie attività sul web. Questo elaborato propone uno studio degli attacchi di fingerprinting a fronte della recente standardizzazione del protocollo QUIC. L'approccio proposto consiste nella raccolta di un dataset di misure di traffico di rete QUIC e TLS, ottenerne diversi insiemi di caratteristiche e addestrare un algoritmo di apprendimento capace di classificare future visite a una selezione di siti web. Il modello ottenuto è capace di classificare i primi 100 siti web della lista Alexa Top 1M Sites con una precisione fino al 98% quando addestrato su un dataset di 245.000 campioni di traffico di rete.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/14847