Recognizing objects in images is a fundamental task in computer vision, often addressed by using machine learning techniques that depend on extensive, diverse, and costly training datasets. The effectiveness of recognition systems is closely related to the size and variety of the data used for training. Generating synthetic training samples provides a practical solution to challenges such as acquiring large datasets, accessing uncommon object classes, and enhancing model performance through training with intricate synthetic data. This project emphasizes the generation and recognition of traffic signs, leveraging advanced models. Generative adversarial networks (GANs) were used to generate realistic synthetic images of traffic signs, followed by their classification and recognition. The GAN framework, which consists of generator and discriminator networks, was applied to train the image generation models. The GTSRB dataset served as the basis for this study. The implementation relied on the TensorFlow framework with the Keras API, along with Python libraries like OpenCV, Matplotlib, NumPy, and Pandas. The project successfully produced a new dataset of highly realistic synthetic traffic sign images. Real traffic signs were classified and distinguished from synthetic ones with an accuracy that exceeded 99%. Furthermore, three different classification models, each trained on distinct datasets, achieved a recognition accuracy of 98% for traffic signs. A combined dataset of real and synthetic images was also created. These outcomes were achieved using Conditional Deep Convolutional GANs, an innovative approach for the GTSRB dataset, demonstrating its effectiveness in improving rare dataset expansion. In addition, this study compared existing Convolutional Neural Network architectures, including ResNet-18 and VGG11, and compared them with a trained model. This comparison showed that lightweight models can achieve competitive or even superior performance in traffic sign recognition.

Riconoscere oggetti nelle immagini è un compito fondamentale nella visione artificiale, spesso affrontato utilizzando tecniche di apprendimento automatico che dipendono da dataset di addestramento estesi, diversificati e costosi. L'efficacia dei sistemi di riconoscimento è strettamente legata alla dimensione e alla varietà dei dati utilizzati per l'addestramento. La generazione di campioni sintetici di addestramento fornisce una soluzione pratica a sfide come l'acquisizione di grandi dataset, l'accesso a classi di oggetti rare e il miglioramento delle prestazioni del modello attraverso l'addestramento con dati sintetici complessi. Questo progetto si concentra sulla generazione e sul riconoscimento dei segnali stradali, sfruttando modelli avanzati. Le reti generative avversarie (GAN) sono state utilizzate per generare immagini sintetiche realistiche di segnali stradali, seguite dalla loro classificazione e riconoscimento. Il framework GAN, composto da una rete generatrice e una rete discriminatrice, è stato applicato per addestrare i modelli di generazione delle immagini. Il dataset GTSRB ha costituito la base per questo studio. L'implementazione si è basata sul framework TensorFlow con l'API Keras, insieme a librerie Python come OpenCV, Matplotlib, NumPy e Pandas. Il progetto ha prodotto con successo un nuovo dataset di immagini sintetiche di segnali stradali altamente realistiche. I segnali stradali reali sono stati classificati e distinti da quelli sintetici con un'accuratezza superiore al 99%. Inoltre, tre diversi modelli di classificazione, ciascuno addestrato su dataset distinti, hanno raggiunto un'accuratezza di riconoscimento del 98% per i segnali stradali. È stato anche creato un dataset combinato di immagini reali e sintetiche. Questi risultati sono stati ottenuti utilizzando Conditional Deep Convolutional GANs, un approccio innovativo applicato al dataset GTSRB, dimostrando la sua efficacia nell'espansione dei dataset rari. Inoltre, questo studio ha confrontato alcune architetture consolidate di Reti Neurali Convoluzionali, tra cui ResNet-18 e VGG11, con un modello addestrato. Il confronto ha evidenziato che modelli leggeri possono raggiungere prestazioni competitive, e in alcuni casi persino superiori, nel riconoscimento dei segnali stradali.

Miglioramento del Riconoscimento dei Segnali Stradali mediante Dati Sintetici e Analisi Comparativa delle Architetture CNN

AMANTAYEVA, MADINA
2024/2025

Abstract

Recognizing objects in images is a fundamental task in computer vision, often addressed by using machine learning techniques that depend on extensive, diverse, and costly training datasets. The effectiveness of recognition systems is closely related to the size and variety of the data used for training. Generating synthetic training samples provides a practical solution to challenges such as acquiring large datasets, accessing uncommon object classes, and enhancing model performance through training with intricate synthetic data. This project emphasizes the generation and recognition of traffic signs, leveraging advanced models. Generative adversarial networks (GANs) were used to generate realistic synthetic images of traffic signs, followed by their classification and recognition. The GAN framework, which consists of generator and discriminator networks, was applied to train the image generation models. The GTSRB dataset served as the basis for this study. The implementation relied on the TensorFlow framework with the Keras API, along with Python libraries like OpenCV, Matplotlib, NumPy, and Pandas. The project successfully produced a new dataset of highly realistic synthetic traffic sign images. Real traffic signs were classified and distinguished from synthetic ones with an accuracy that exceeded 99%. Furthermore, three different classification models, each trained on distinct datasets, achieved a recognition accuracy of 98% for traffic signs. A combined dataset of real and synthetic images was also created. These outcomes were achieved using Conditional Deep Convolutional GANs, an innovative approach for the GTSRB dataset, demonstrating its effectiveness in improving rare dataset expansion. In addition, this study compared existing Convolutional Neural Network architectures, including ResNet-18 and VGG11, and compared them with a trained model. This comparison showed that lightweight models can achieve competitive or even superior performance in traffic sign recognition.
2024
Enhancing Traffic Sign Recognition Using Synthetic Data and Comparative Analysis of CNN Architectures
Riconoscere oggetti nelle immagini è un compito fondamentale nella visione artificiale, spesso affrontato utilizzando tecniche di apprendimento automatico che dipendono da dataset di addestramento estesi, diversificati e costosi. L'efficacia dei sistemi di riconoscimento è strettamente legata alla dimensione e alla varietà dei dati utilizzati per l'addestramento. La generazione di campioni sintetici di addestramento fornisce una soluzione pratica a sfide come l'acquisizione di grandi dataset, l'accesso a classi di oggetti rare e il miglioramento delle prestazioni del modello attraverso l'addestramento con dati sintetici complessi. Questo progetto si concentra sulla generazione e sul riconoscimento dei segnali stradali, sfruttando modelli avanzati. Le reti generative avversarie (GAN) sono state utilizzate per generare immagini sintetiche realistiche di segnali stradali, seguite dalla loro classificazione e riconoscimento. Il framework GAN, composto da una rete generatrice e una rete discriminatrice, è stato applicato per addestrare i modelli di generazione delle immagini. Il dataset GTSRB ha costituito la base per questo studio. L'implementazione si è basata sul framework TensorFlow con l'API Keras, insieme a librerie Python come OpenCV, Matplotlib, NumPy e Pandas. Il progetto ha prodotto con successo un nuovo dataset di immagini sintetiche di segnali stradali altamente realistiche. I segnali stradali reali sono stati classificati e distinti da quelli sintetici con un'accuratezza superiore al 99%. Inoltre, tre diversi modelli di classificazione, ciascuno addestrato su dataset distinti, hanno raggiunto un'accuratezza di riconoscimento del 98% per i segnali stradali. È stato anche creato un dataset combinato di immagini reali e sintetiche. Questi risultati sono stati ottenuti utilizzando Conditional Deep Convolutional GANs, un approccio innovativo applicato al dataset GTSRB, dimostrando la sua efficacia nell'espansione dei dataset rari. Inoltre, questo studio ha confrontato alcune architetture consolidate di Reti Neurali Convoluzionali, tra cui ResNet-18 e VGG11, con un modello addestrato. Il confronto ha evidenziato che modelli leggeri possono raggiungere prestazioni competitive, e in alcuni casi persino superiori, nel riconoscimento dei segnali stradali.
File in questo prodotto:
File Dimensione Formato  
Amantayeva_Madina_Thesis.pdf

accesso aperto

Dimensione 24.15 MB
Formato Adobe PDF
24.15 MB Adobe PDF Visualizza/Apri

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/33561