Improving the security of Federated Learning for IoT: A time series approach.

IoT is a network of interconnected computing devices which are more and more pervasive in people daily lives. In the recent research literature several approaches have been proposed to improve the security of IoT using machine learning based approach. However, in a scenario characterized by very heterogeneous devices such as the IoT, describing collaborative approaches for their protection appears a very interesting and challenging research objective. In this context, Federated Learning can play a crucial role enabling the training of machine learning models in a distributed fashion. Federated Learning works with n clients and a single server, each client has its own data and trains a local model. Then, at each epoch, all of the local models’ weights are joined together using some specific technique called Aggregation Algorithms (AGR). The model built from this join is the server model and represents the output of the training. However, federated learning models can be vulnerable to attacks carried out by solve of the involved clients. The attacks considered in this thesis are the Lie and Fang attacks. To make the federated approach more robust there are some existing aggregation techniques used to join all the local models’ weights avoiding to include the compromised weights. In this thesis, a thorough study of the most common attacks to Federated Learning, as well as the existing countermeasure, is presented. Moreover, since the LIE and Fang attacks are specifically designed to by-pass the existing AGR strategies, a novel approach based on time series to detect attacks on a Federated Learning system is proposed. Time series of a portion of suitably selected weights are chosen and a ARIMA model is built for each of them. The ARIMA model will be able to predict if the weights of the next epoch is reliable or not. A metric to evaluate its efficiency will be also shown in this thesis.

L’IoT `e una rete di dispositivi informatici interconnessi che sono sempre pi`u pervasivi nella vita quotidiana delle persone. Nella recenti ricerche di letteratura sono stati proposti diversi approcci per migliorare la sicurezza dell’IoT utilizzando un approccio basato sull’apprendimento automatico. Tuttavia, in uno scenario caratterizzato da dispositivi molto eterogenei come l’IoT, la descrizione di approcci collaborativi per la loro protezione appare un obiettivo di ricerca molto interessante e stimolante. In questo contesto, il Federated Learning pu`o svolgere un ruolo cruciale consentendo la formazione di modelli di machine learning in modo distribuito. L’apprendimento federato funziona con n client e un singolo server, ogni client ha i propri dati e addestra un modello locale. Quindi, ad ogni epoca, tutti i pesi dei modelli locali vengono uniti tra loro utilizzando una tecnica specifica chiamata Algoritmi di Aggregazione (AGR). Il modello creato da questo join `e il modello del server e rappresenta l’output del training. Tuttavia, i modelli di apprendimento federato possono essere vulnerabili agli attacchi effettuati dalla soluzione dei client coinvolti. Gli attacchi considerati in questa tesi sono gli attacchi Lie e Fang. Per rendere pi`u robusto l’approccio federato ci sono alcune tecniche di aggregazione esistenti utilizzate per unire tutti i pesi dei modelli locali evitando di includere i pesi compromessi. In questa tesi viene presentato uno studio approfondito degli attacchi pi`u comuni al Federated Learning, nonch´e delle contromisure esistenti. Inoltre, poich´e gli attacchi LIE e Fang sono progettati specificamente per aggirare le strategie AGR esistenti, viene proposto un nuovo approccio basato su serie temporali per rilevare gli attacchi a un sistema di apprendimento federato. Si scelgono le serie temporali di una porzione di pesi opportunamente selezionati e per ciascuno di essi viene costruito un modello ARIMA. Il modello ARIMA sar`a in grado di prevedere se i pesi della prossima epoca sono affidabili o meno. Inoltre, in questa tesi verr`a mostrata una metrica per valutarne l’efficienza.