Pattern recognition is one of the most promising areas in the field of Computer Vision. The goal of this thesis is to develop a model capable of classifying images containing different textures.The uniqueness of the approach investigated lies in the learning paradigm, considered: that of self-supervised learning. This approach allows us to keep the benefits of both supervised and unsupervised learning taking advantage of datasets without manual annotations. The implemented model is characterized by a Siamese network where two different transformations of the same image are fed to an encoder consisting of a convolutional neural network (CNN) and a Multilayer Perceptron (MLP). The model also processes one of the two inputs through another MLP. The learning process is divided into two phases. The first is unsupervised, with the cost function measuring the similarity between the two outputs of the network. Supervised learning is applied in the second phase. Finally, performances are evaluated by a k-nearest neighbors (kNN) classifier. Experimental results show a level of accuracy in the classification task comparable to that of supervised methods in the literature but with the advantage of both using unlabelled data and reducing computational costs. A significant contribution of the thesis is a comparison of image augmentation techniques and the evaluation of their impact on the results. Finally, the knowledge gained from the network has been transferred to a different task, that of semantic segmentation. The final classification layer has been replaced by a linear head, which computes a segmentation map of the input image. Although they were not as promising as the previous results, they were instructive. The final part of this thesis examines various hypotheses for the improvement of the quality of segmentation.
Un modello auto-supervisionato per la classificazione di texture basato su architettura Siamese. Nel campo della visione artificiale, uno dei settori più in promettenti in termini di analisi di immagini è costituito dal pattern recognition. Il seguente lavoro di tesi ha lo scopo di elaborare un modello in grado di classificare delle immagini contenenti texture differenti e di stimare le sue performance. La particolarità dell’applicazione riguarda in primo luogo il paradigma di apprendimento; si è optato, infatti, per un approccio sperimentale, contraddistinto dall’apprendimento auto-supervisionato. Esso ci permette di mantenere i vantaggi sia di quello supervisionato che di quello non supervisionato, sfruttando la presenza di un dataset non annotato. Il modello implementato `e contraddistinto da una rete siamese in cui due diverse trasformazioni della stessa immagine vengono poste in input ad un encoder costituito da una rete neural convoluzionale (CNN) e da un percettrone multistrato (MLP) e, successivamente, per uno dei due input, è previsto anche il passaggio per un altro MLP. Il processo di apprendimento `e diviso in due fasi. La prima è non supervisionata e la funzione di costo si concretizza nel misurare la similarità tra i due output della rete. Nella seconda effettuiamo un apprendimento supervisionato e una valutazione delle performance tramite un classificatore k-nearest neighbors (kNN). Gli esiti sperimentali hanno evidenziato un livello di accuratezza nel compito classificazione e nell’apprendimento delle feature comparabile a quello di metodi supervisionati presenti in letteratura, ma con il vantaggio di poter simultaneamente utilizzare dati non classificati e snellire il costo computazionale del software. Inoltre, di grande rilevanza, è stato lo studio sulle tecniche di augmentation subite dalle immagini, poiché ́e si sono delineate situazioni in cui `e stato possibile discernere qualitativamente quali stimolassero di più la nostra architettura. Si è cercato, infine, di estendere quanto appreso dalla rete ad una funzione diversa, ovvero la segmentazione semantica. Il precedente strato finale di classificazione è stato sostituito da una testa lineare, che, dopo aver ricevuto delle immagini appartenenti ad un altro dataset, calcola come output una mappa segmentata classificando i diversi soggetti all’interno. Nonostante si siano ottenuti risultati non ottimali come i precedenti, nella parte conclusiva di questo lavoro di tesi vengono esaminate varie ipotesi per il miglioramento dell’applicazione di segmentazione.
A self-supervised model for texture classification based on Siamese architecture
BRANCATI, VALENTINA
2021/2022
Abstract
Pattern recognition is one of the most promising areas in the field of Computer Vision. The goal of this thesis is to develop a model capable of classifying images containing different textures.The uniqueness of the approach investigated lies in the learning paradigm, considered: that of self-supervised learning. This approach allows us to keep the benefits of both supervised and unsupervised learning taking advantage of datasets without manual annotations. The implemented model is characterized by a Siamese network where two different transformations of the same image are fed to an encoder consisting of a convolutional neural network (CNN) and a Multilayer Perceptron (MLP). The model also processes one of the two inputs through another MLP. The learning process is divided into two phases. The first is unsupervised, with the cost function measuring the similarity between the two outputs of the network. Supervised learning is applied in the second phase. Finally, performances are evaluated by a k-nearest neighbors (kNN) classifier. Experimental results show a level of accuracy in the classification task comparable to that of supervised methods in the literature but with the advantage of both using unlabelled data and reducing computational costs. A significant contribution of the thesis is a comparison of image augmentation techniques and the evaluation of their impact on the results. Finally, the knowledge gained from the network has been transferred to a different task, that of semantic segmentation. The final classification layer has been replaced by a linear head, which computes a segmentation map of the input image. Although they were not as promising as the previous results, they were instructive. The final part of this thesis examines various hypotheses for the improvement of the quality of segmentation.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/16178