This thesis presents an application of Normalizing Flows for Deep Reinforcement Learning in the field of transformations of probability measures. The goal of this application is to build a multivariate probabilistic model from data and then to sample from it. After some notions of Machine Learning are described, we introduce theoretical features and properties of Normalizing flows, which represents a method for transforming multivariate probability distributions in an efficient and invertible way. Then the theoretical aspects (on the subject of convergence is representative power of distributions) of some methods that apply this strategy are described. The experimental part deals with the extension of these methods to more dimensions and to an efficiency comparison. A reference distribution that can be extended to any number of dimensions and a computationally efficient divergence function have been developed to evaluate the convergence of the methods. Specifically, an initial comparison is conducted on two dimensions based on the value of divergence and computational time and then a second time on higher dimensions.

La tesi presenta un'applicazione dei Normalizing Flows per il Deep Reinforcement Learning nel campo delle trasformazioni di misure di probabilità. L'obiettivo di questa applicazione è di poter costruire un modello probabilistico multivariato a partire da dati per poi poter effettuare un campionamento. In particolare vengono introdotte alcune nozioni di Machine Learning e presentate le caratteristiche teoriche ad alcune proprietà dei Normalizing flows, che rappresenta un metodo per trasformare le distribuzioni di probabilità in modo efficiente e invertibile. Successivamente vengono descritti gli aspetti teorici (in tema di convergenza è potere rappresentativo delle distribuzioni) di alcuni metodi che applicano questa strategia. La parte sperimentale verte sull'estensione di questi metodi a più dimensioni e ad un confronto di efficienza. Sono state messe a punto una distribuzione di riferimento estendibile ad un numero di dimensioni a piacere e una funzione di divergenza computazionalmente efficiente per valutare la convergenza dei metodi. In particolare viene condotto un primo confronto su due dimensioni in base al valore della divergenza e del tempo di calcolo e poi un secondo su dimensioni superiori.

Normalizing Flows applicati al Deep Reinforcement Learning

MILANESI, PAOLO
2020/2021

Abstract

This thesis presents an application of Normalizing Flows for Deep Reinforcement Learning in the field of transformations of probability measures. The goal of this application is to build a multivariate probabilistic model from data and then to sample from it. After some notions of Machine Learning are described, we introduce theoretical features and properties of Normalizing flows, which represents a method for transforming multivariate probability distributions in an efficient and invertible way. Then the theoretical aspects (on the subject of convergence is representative power of distributions) of some methods that apply this strategy are described. The experimental part deals with the extension of these methods to more dimensions and to an efficiency comparison. A reference distribution that can be extended to any number of dimensions and a computationally efficient divergence function have been developed to evaluate the convergence of the methods. Specifically, an initial comparison is conducted on two dimensions based on the value of divergence and computational time and then a second time on higher dimensions.
2020
Normalizing Flows for Deep Reinforcement Learning
La tesi presenta un'applicazione dei Normalizing Flows per il Deep Reinforcement Learning nel campo delle trasformazioni di misure di probabilità. L'obiettivo di questa applicazione è di poter costruire un modello probabilistico multivariato a partire da dati per poi poter effettuare un campionamento. In particolare vengono introdotte alcune nozioni di Machine Learning e presentate le caratteristiche teoriche ad alcune proprietà dei Normalizing flows, che rappresenta un metodo per trasformare le distribuzioni di probabilità in modo efficiente e invertibile. Successivamente vengono descritti gli aspetti teorici (in tema di convergenza è potere rappresentativo delle distribuzioni) di alcuni metodi che applicano questa strategia. La parte sperimentale verte sull'estensione di questi metodi a più dimensioni e ad un confronto di efficienza. Sono state messe a punto una distribuzione di riferimento estendibile ad un numero di dimensioni a piacere e una funzione di divergenza computazionalmente efficiente per valutare la convergenza dei metodi. In particolare viene condotto un primo confronto su due dimensioni in base al valore della divergenza e del tempo di calcolo e poi un secondo su dimensioni superiori.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/14227