Improving the visual content of a picture is a well known problem in the field of computer vision and image processing. As of today, thanks to the usage of professional softwares, it is possible to improve our photographs by choosing between a number of ready to use photographic filters. However, results obtained are not always satisfying because the enhancement is mostly based on picture semantics and not only on pictures physical parameters such as exposure, contrast and saturation. The goal of this thesis is to implement a neural architecture to enhance the visual impact of a RAW format picture, emulating what a professional retoucher would do, with an image-to-image kind of approach; a technique that consists in translating a picture from its domain to a target domain, while keeping its semantic content. One of the most trivial aspects in dealing with picture tonal enhancement is that the editing process is heavily influenced by personal taste. For this reason, in this thesis machine learning techniques are leveraged to generate visually pleasing pictures starting from RAW format pictures, while keeping a certain artistic freedom in the choice of tints. The problem is both handling underexposed pictures as lacking information, and making a neural network to learn how to enhance visual content in photographs. The proposed architecture is a conditional variational autoencoder. It is made of an encoder (specifically, a ResNet-18) and a decoder, inspired by previous state of the art works and remarkably modified to accept an additional conditioning input. The model demonstrated to be capable of producing excellent results superior, in terms of quantitative metrics, to models considered state of the art as of today with a considerably higher number of parameters if compared to the proposed architecture. Experimental results also demonstrate how varying model hyperparameters corresponds to the generation of output pictures. Therefore, as it still is an experimental architecture, a further analysis will be needed to verify the interpretability of results obtained and how hyperparameters affect generated pictures to make them closer or not to end user personal taste.
Autoencoder variazionale condizionale per il miglioramento di immagini sottoesposte. Il miglioramento del contenuto visivo di un'immagine è un problema noto nel campo della computer vision e image processing. Oggi grazie all'utilizzo di software professionali si possono migliorare i propri scatti scegliendo fra una rosa di filtri fotografici pronti all'uso. Tuttavia i risultati spesso non si rivelano soddisfacenti poichè il miglioramento è dettato in particolare dal contenuto semantico dell'immagine e non solo da parametri come ad esempio esposizione, contrasto e saturazione. L'obiettivo di questa tesi è quello di implementare un'architettura neurale capace di migliorare l'impatto visivo di immagini in formato RAW, emulando il lavoro di un fotoritoccatore professionista, con un approccio di tipo image-to-image translation; una tecnica che consiste nel tradurre una immagine dal suo dominio di partenza ad un altro prefissato, mantenendo il contenuto semantico. Uno degli aspetti più complicati da tener conto quando si parla del miglioramento tonale di un'immagine è che il processo di modifica è particolarmente influenzato dalle preferenze della persona che si accinge ad eseguirlo. Per questo motivo, in questa tesi si ricorre a tecniche di machine learning per generare immagini di gradevole impatto visivo partendo da immagini in formato RAW, mantenendo una certa libertà artistica nella scelta delle tinte. Il problema si pone sia nel gestire immagini sottoesposte e quindi con poca informazione, sia nell'apprendere con una rete neurale il miglioramento del contenuto visivo nella fotografia. L'architettura neurale proposta è un autoencoder condizionale variazionale. E' costituita da un encoder (in particolare una ResNet-18) e da un decoder, ispirato a precedenti lavori presenti nello stato dell'arte e notevolmente modificato per accettare un ulteriore input come condizionamento. Il modello si è dimostrato capace di produrre ottimi risultati superiori, in termini di metriche quantitative, a modelli che tutt'oggi sono considerati stato dell'arte in questo campo e che hanno un numero di parametri molto maggiore rispetto all'architettura proposta. I risultati sperimentali dimostrano inoltre come la variazione degli iperparametri del modello si rifletta nella generazione delle immagini output. Essendo quindi un'architettura sperimentale, un'analisi futura sarà necessaria per verificare l'interpretabilità dei risultati ottenuti e di come gli iperparametri influenzino le immagini generate avvicinandole o meno ai gusti dell'utente finale.
Conditional variational autoencoder for underexposed images enhancement
TODARO, LUCA
2020/2021
Abstract
Improving the visual content of a picture is a well known problem in the field of computer vision and image processing. As of today, thanks to the usage of professional softwares, it is possible to improve our photographs by choosing between a number of ready to use photographic filters. However, results obtained are not always satisfying because the enhancement is mostly based on picture semantics and not only on pictures physical parameters such as exposure, contrast and saturation. The goal of this thesis is to implement a neural architecture to enhance the visual impact of a RAW format picture, emulating what a professional retoucher would do, with an image-to-image kind of approach; a technique that consists in translating a picture from its domain to a target domain, while keeping its semantic content. One of the most trivial aspects in dealing with picture tonal enhancement is that the editing process is heavily influenced by personal taste. For this reason, in this thesis machine learning techniques are leveraged to generate visually pleasing pictures starting from RAW format pictures, while keeping a certain artistic freedom in the choice of tints. The problem is both handling underexposed pictures as lacking information, and making a neural network to learn how to enhance visual content in photographs. The proposed architecture is a conditional variational autoencoder. It is made of an encoder (specifically, a ResNet-18) and a decoder, inspired by previous state of the art works and remarkably modified to accept an additional conditioning input. The model demonstrated to be capable of producing excellent results superior, in terms of quantitative metrics, to models considered state of the art as of today with a considerably higher number of parameters if compared to the proposed architecture. Experimental results also demonstrate how varying model hyperparameters corresponds to the generation of output pictures. Therefore, as it still is an experimental architecture, a further analysis will be needed to verify the interpretability of results obtained and how hyperparameters affect generated pictures to make them closer or not to end user personal taste.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/13113