A framework for adversarial example generation and attacks against a document classification model.

Adversarial machine learning is a machine learning technique that aims at threatening models, thus leading to potential security incidents. An adversarial example is one of the most discussed attacks. It consists of an input intentionally modified by an attacker to cause machine learning models to fail. These changes result in small perturbations, often not even noticeable to the human eye, that make adversarial examples hard to be detected. Although we expect a neural network to be robust against small perturbations of the input, it happens that adversarial examples can mislead it. In recent years, textual documents have been targeted by adversarial attacks. This thesis work addresses the study and generation of possible attacks against machine learning models that classify textual documents. The models focus particularly on a BERT-based natural language processing classifier, that classifies documents based on their degree of confidentiality. The dataset used to test the proposed approach consists of scanned NATO Cold War documents, now declassified, whose degree of confidentiality is specified by one or multiple stamps posted on each document. The experimental results have shown that adversarial text examples can actually mislead the model, resulting either in Denial of Service attacks -- whenever unclassified documents are set to classified -- or in a data breach -- whenever classified documents are released to public.

L'adversarial machine learning è una tecnica di apprendimento automatico volta alla minaccia dei modelli, portando così a potenziali incidenti di sicurezza. Uno degli attacchi più discussi è l'adversarial example. É un input opportunamente modificato da un utente malintenzionato per causare il fallimento dei modelli di machine learning. Queste modifiche sono rappresentate da piccole perturbazioni, spesso nemmeno visibili all'occhio umano, che rendono difficile la rilevazione di questi campioni corrotti. Nonostante una rete neurale dovrebbe essere robusta contro piccole perturbazioni dell'input, gli adversarial example sono in grado di fuorviarla. Negli ultimi anni, gli adversarial attack hanno preso di mira i documenti testuali. Questo lavoro di tesi affronta lo studio e la generazione di possibili attacchi contro mo\-del\-li di machine learning che classificano documenti testuali. In particolare, il modello utilizzato è un classificatore basato su BERT che elabora il linguaggio naturale e classifica i documenti in base al loro grado di riservatezza. Il set di dati utilizzato per testare l'approccio proposto è costituito da documenti NATO della Guerra Fredda scansionati, ora declassificati, il cui grado di riservatezza è specificato da uno o più timbri apposti su ciascun documento. I risultati sperimentali hanno dimostrato che gli esempi di adversarial text possono effettivamente fuorviare il modello, e possono comportare un Denial of Service -- ogni volta che i documenti non classificati sono visti come classificati -- o una violazione dei dati - ogni volta che i documenti classificati vengono rilasciati al pubblico.