Nowadays, due to the rapid growth of visual data, precise image classification and enhancement methods have become crucial aspects of daily applications. In this study, we address both of these important concepts, using deep learning techniques. First, the nature of the classification problem is different from the standard classification problems, such as the categorization of objects in the images. It's a peculiar case of computational photography in which the objective is to perform photographic style classification. To solve this problem, we perform several experiments using different architectures of Convolutional Neural Networks (CNNs), by applying different transfer learning techniques, such as feature extractor, fine-tuning, and training from scratch. Lastly, we propose a novel approach, training the models on six-channel input images, which proved to be very effective over traditional methods. In our case, image enhancement is typically done on the stylistic preferences provided at runtime, which is rarely touched upon in the literature. This highlights the uniqueness of our approach. Conditional image enhancement is performed using autoencoders, specifically U-NET, by including the embeddings of the stylistic preferences that are provided during the reconstruction of the images. Several variations of this model have been proposed, with the possibility of extension to perform advanced tasks like interpolating between styles. These proposed methods provide a valuable foundation for the development of the application in computational photography and digital image enhancement.

Al giorno d'oggi, a causa della rapida crescita dei dati visivi, la classificazione precisa delle immagini e i metodi di miglioramento sono diventati aspetti cruciali delle applicazioni quotidiane. In questo studio affrontiamo entrambi questi importanti concetti, utilizzando tecniche di deep learning. Innanzitutto, la natura del problema di classificazione è diversa dai problemi di classificazione standard, come la categorizzazione degli oggetti nelle immagini. È un caso peculiare di fotografia computazionale in cui l'obiettivo è eseguire la classificazione dello stile fotografico. Per risolvere questo problema, eseguiamo diversi esperimenti utilizzando diverse architetture di reti neurali convoluzionali (CNN), applicando diverse tecniche di trasferimento di apprendimento, come l'estrazione di funzionalità, la messa a punto e l'addestramento da zero. Infine, proponiamo un approccio innovativo, addestrando i modelli su immagini di input a sei canali, che si è rivelato molto efficace rispetto ai metodi tradizionali. Nel nostro caso, il miglioramento dell'immagine viene tipicamente eseguito in base alle preferenze stilistiche fornite in fase di esecuzione, cosa raramente menzionata in letteratura. Ciò evidenzia l’unicità del nostro approccio. Il miglioramento condizionale dell'immagine viene eseguito utilizzando autoencoder, in particolare U-NET, includendo gli incorporamenti delle preferenze stilistiche fornite durante la ricostruzione delle immagini. Sono state proposte diverse varianti di questo modello, con la possibilità di estensione per eseguire attività avanzate come l'interpolazione tra stili. Questi metodi proposti forniscono una base preziosa per lo sviluppo dell'applicazione nella fotografia computazionale e nel miglioramento delle immagini digitali.

Tecniche di apprendimento profondo per la classificazione dello stile fotografico e il miglioramento delle immagini

MUSHTAQ, MOHSIN
2023/2024

Abstract

Nowadays, due to the rapid growth of visual data, precise image classification and enhancement methods have become crucial aspects of daily applications. In this study, we address both of these important concepts, using deep learning techniques. First, the nature of the classification problem is different from the standard classification problems, such as the categorization of objects in the images. It's a peculiar case of computational photography in which the objective is to perform photographic style classification. To solve this problem, we perform several experiments using different architectures of Convolutional Neural Networks (CNNs), by applying different transfer learning techniques, such as feature extractor, fine-tuning, and training from scratch. Lastly, we propose a novel approach, training the models on six-channel input images, which proved to be very effective over traditional methods. In our case, image enhancement is typically done on the stylistic preferences provided at runtime, which is rarely touched upon in the literature. This highlights the uniqueness of our approach. Conditional image enhancement is performed using autoencoders, specifically U-NET, by including the embeddings of the stylistic preferences that are provided during the reconstruction of the images. Several variations of this model have been proposed, with the possibility of extension to perform advanced tasks like interpolating between styles. These proposed methods provide a valuable foundation for the development of the application in computational photography and digital image enhancement.
2023
Deep Learning Techniques for Photographic Style Classification and Image Enhancement
Al giorno d'oggi, a causa della rapida crescita dei dati visivi, la classificazione precisa delle immagini e i metodi di miglioramento sono diventati aspetti cruciali delle applicazioni quotidiane. In questo studio affrontiamo entrambi questi importanti concetti, utilizzando tecniche di deep learning. Innanzitutto, la natura del problema di classificazione è diversa dai problemi di classificazione standard, come la categorizzazione degli oggetti nelle immagini. È un caso peculiare di fotografia computazionale in cui l'obiettivo è eseguire la classificazione dello stile fotografico. Per risolvere questo problema, eseguiamo diversi esperimenti utilizzando diverse architetture di reti neurali convoluzionali (CNN), applicando diverse tecniche di trasferimento di apprendimento, come l'estrazione di funzionalità, la messa a punto e l'addestramento da zero. Infine, proponiamo un approccio innovativo, addestrando i modelli su immagini di input a sei canali, che si è rivelato molto efficace rispetto ai metodi tradizionali. Nel nostro caso, il miglioramento dell'immagine viene tipicamente eseguito in base alle preferenze stilistiche fornite in fase di esecuzione, cosa raramente menzionata in letteratura. Ciò evidenzia l’unicità del nostro approccio. Il miglioramento condizionale dell'immagine viene eseguito utilizzando autoencoder, in particolare U-NET, includendo gli incorporamenti delle preferenze stilistiche fornite durante la ricostruzione delle immagini. Sono state proposte diverse varianti di questo modello, con la possibilità di estensione per eseguire attività avanzate come l'interpolazione tra stili. Questi metodi proposti forniscono una base preziosa per lo sviluppo dell'applicazione nella fotografia computazionale e nel miglioramento delle immagini digitali.
File in questo prodotto:
File Dimensione Formato  
Mohsin_Mushtaq_Thesis.pdf

accesso aperto

Dimensione 3.01 MB
Formato Adobe PDF
3.01 MB Adobe PDF Visualizza/Apri

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/33225