Classificazione dei Malware tramite Deep Learning

This thesis addresses the escalating challenge of malware classification in the era of AI-generated threats by investigating deep learning approaches based on opcode sequence analysis. As cybercriminals increasingly leverage generative AI to create polymorphic malware at unprecedented scale, traditional detection methods struggle to maintain effectiveness. We propose and evaluate multiple feature engineering techniques and classification models on a dataset of 8,970 samples from five distinct malware families: Locker, Mediyes, WinWebSec, Zbot, and ZeroAccess. Our methodology encompasses three complementary approaches: (1) transforming opcode sequences into grayscale images using SimHash for CNN-based classification, (2) developing frequency vectors capturing opcode distribution patterns for linear classification, and (3) implementing sequence embeddings to preserve temporal relationships for LSTM models. Through comprehensive experimentation, we demonstrate that a linear classifier trained on opcode frequency vectors achieves the highest overall accuracy (98.36 %) and AUC (99.62 %), while CNN models excel at detecting rare malware families (achieving 92.15 % F1 score for the minority Locker class). The LSTM classifier with trainable embeddings effectively captures sequential dependencies but shows sensitivity to class imbalance. Additionally, we develop an automated pipeline for malware unpacking/deobfuscation and feature extraction to enhance reproducibility. Our comparative analysis reveals that different feature representations offer complementary strengths, suggesting that hybrid or ensemble models could further improve classification performance. This research contributes to the development of scalable, efficient, and adaptive malware detection systems capable of countering rapidly evolving cyber threats.

Questa tesi affronta la crescente sfida della classificazione dei malware nell’era delle minacce generate dall’intelligenza artificiale, esplorando approcci di deep learning basati sull’analisi delle sequenze di opcode. Poich´e i cybercriminali sfruttano sempre pi`u l’IA generativa per creare malware polimorfi su larga scala, i metodi tradizionali di rilevamento faticano a mantenere la loro efficacia. Proponiamo e valutiamo diverse tecniche di feature engineering e modelli di classificazione su un dataset di 8.970 campioni appartenenti a cinque famiglie di malware distinte: Locker, Mediyes, WinWebSec, Zbot, e ZeroAccess. La nostra metodologia comprende tre approcci complementari: (1) la trasformazione delle sequenze di opcode in immagini in scala di grigi tramite SimHash per la classificazione con reti neurali convoluzionali (CNN), (2) lo sviluppo di vettori di frequenza che catturano i pattern di distribuzione degli opcode per la classificazione lineare e (3) l’implementazione di embedding di sequenza per preservare le relazioni temporali nei modelli LSTM. Attraverso una sperimentazione approfondita, dimostriamo che un classificatore lineare addestrato sui vettori di frequenza degli opcode raggiunge la massima accuratezza complessiva (98.36 %) e AUC (99.62 %), mentre i modelli CNN eccellono nel rilevamento delle famiglie di malware rare (ottenendo un F1-score del 92.15 % per la classe minoritaria Locker). Il classificatore LSTM con embedding addestrabili cattura efficacemente le dipendenze sequenziali, ma mostra sensibilit`a allo sbilanciamento delle classi. Inoltre, abbiamo sviluppato una pipeline automatizzata per il deoffuscamento dei malware e l’estrazione delle feature, migliorando la riproducibilit`a del processo. L’analisi comparativa rivela che le diverse rappresentazioni delle feature offrono punti di forza complementari, suggerendo che modelli ibridi o ensemble potrebbero ulteriormente migliorare le prestazioni di classificazione. Questo lavoro contribuisce allo sviluppo di sistemi di rilevamento malware scalabili, efficienti e adattivi, in grado di contrastare minacce informatiche in rápida evoluzione.