Deep Learning per la Computer Vision: classificazione di immagini e applicazione industriale

This thesis is set within the field of Deep Learning, focusing on Computer Vision applied to image classification in a business context, with the aim of automatically recognizing production features of clothing items to support and automate cataloging process, in the real--world context of a luxury clothing manufacturing company. To address this requirement, the problem was formulated as a multi-class and multi-task image classification task, in which each clothing image may exhibit multiple independent attributes. To this end, several architectures were analyzed and compared: google/vit-base-patch16-224, microsoft/resnet-50 and microsoft/swin-small-patch4-window7-224. Pre-trained models (on large-scale image datasets) were employed and subsequently fine-tuned for the target task. In order to evaluate its performance, tuning was evaluated through hyperparameters tuning via grid search over a set of parameters, including learning rate, weight decay, batch size and learning rate scheduling strategy. The experimental evaluation was conducted on two distinct datasets, each associated with a specific experimental phase. The first dataset is artificial and homogeneous and it’s composed of full-body clothing image on a white background. The second dataset is composed of both full-body images and cropped images on a white background, provided directly by the client. Both datasets were divided into 80% of the images for training and 20% for validation. The performance of the model was assessed using the average accuracy in the validation set. The reported results highlight that the model performance strongly depends both on the intrinsic characteristics of the examined architecture and with the nature of the visual information in provided data.

L’elaborato di tesi si inserisce nell’ambito del Deep Learning, nello specifico della Computer Vision applicata alla classificazione di immagini per il riconoscimento automatico di caratteristiche produttive di capi d’abbigliamento al fine di supportare e automatizzare il processo di catalogazione, nel contesto reale di un’azienda che si occupa di manifattura di capi d’abbigliamento di lusso. Per rispondere alla richiesta è stato definito un problema di classificazione multi classe e multi-task, in cui ciascun capo può presentare più attributi indipendenti. A tal fine sono state analizzate e confrontate più architetture di Deep Learning: google/vit-base-patch16-224, microsoft/resnet-50 e microsoft/swin-small-patch4-window7-224. In particolare, sono stati caricati i modelli pre-addestrati (su dataset di immagini su larga scala) a cui è stato fatto fine tuning per il compito oggetto di studio. Per valutarne le prestazioni è stato effettuato un tuning mediante una grid search su un insieme di iperparametri, quali learning rate, weight decay, batch size e strategia di scheduling del learning rate. La valutazione sperimentale è stata condotta su due dataset distinti, ciascuno associato a una specifica fase sperimentale: un primo dataset artificiale, omogeneo, costituito da immagini di capi d’abbigliamento nella loro interezza su sfondo bianco; un secondo dataset costituito sia da immagini intere di capi d’abbigliamento che ritagli, sempre su sfondo bianco, forniteci dal cliente stesso. Entrambi i dataset sono stati divisi in un 80% di immagini per l’allenamento del modello ed il restante 20% per la validazione. Per la valutazione delle performance è stata considerata l’accuratezza media sulle immagini di validazione. I risultati riportati evidenziano come le performance del modello dipendano fortemente sia dalle caratteristiche intrinseche dell’architettura in esame che dalla natura dell’informazione visiva presente nei dati.