The objective of this thesis work is to tackle a challenging real-world problem regarding the scheduling of Extract, Transform and Load (ETL) operations to manage data and feed enterprise information systems. Standard algorithms are not suited for this purpose because, besides individual deadline requirements, jobs are also characterized by internal dependencies. For those reasons, a novel data-driven approach is proposed to face this complex scheduling problem without the need of manually designing an algorithm from scratch. The implemented model adopts state-of-the-art techniques in Machine Learning, like Deep Q-Networks (DQN), Double Dueling DQN (D3QN) and Graph Convolutional Networks (GCN) for interpreting the dependency conditions between the jobs and learning how to make sequential scheduling decisions. The outcome is an agent trained through the development of a framework for the simulation of realistic workload scenarios. The results achieved by the presented approach are significant and encouraging and can be the premises for further research efforts in this context.
Un approccio data-driven per la pianificazione avanzata di processi tramite l'utilizzo di Deep Q-Network. L'obiettivo di questo lavoro di tesi consiste nell'affrontare un impegnativo problema reale riguardante la pianificazione di operazioni di Extract, Transform, e Load (ETL) per la gestione di dati e immissione in sistemi informatici aziendali. Gli algoritmi standard non sono adatti a questo proposito, in quanto, oltre a scadenze individuali, i processi sono caratterizzati anche da dipendenze interne. Per queste ragioni, un nuovo approccio data-driven viene proposto per affrontare questo complesso problema di pianificazione senza la necessità di progettare un algoritmo da zero. Il modello implementato adotta tecniche all'avanguardia nel Machine Learning, come le Deep Q-Network (DQN), Double Dueling DQN (D3QN) e le Graph Convolutional Network (GCN) per l'interpretazione delle condizioni di dipendenza tra i processi e l'apprendimento di una strategia per effettuare decisioni di scheduling sequenziali. Il risultato è un agente addestrato tramite lo sviluppo di un framework per la simulazione di carichi di lavoro realistici. Gli esiti ottenuti dall'approccio proposto sono significativi e incoraggianti, e possono costituire le premesse per ulteriori sforzi di ricerca in questo contesto.
A data-driven approach for advanced job scheduling using Deep Q-Networks
ZORZATO, RICCARDO
2019/2020
Abstract
The objective of this thesis work is to tackle a challenging real-world problem regarding the scheduling of Extract, Transform and Load (ETL) operations to manage data and feed enterprise information systems. Standard algorithms are not suited for this purpose because, besides individual deadline requirements, jobs are also characterized by internal dependencies. For those reasons, a novel data-driven approach is proposed to face this complex scheduling problem without the need of manually designing an algorithm from scratch. The implemented model adopts state-of-the-art techniques in Machine Learning, like Deep Q-Networks (DQN), Double Dueling DQN (D3QN) and Graph Convolutional Networks (GCN) for interpreting the dependency conditions between the jobs and learning how to make sequential scheduling decisions. The outcome is an agent trained through the development of a framework for the simulation of realistic workload scenarios. The results achieved by the presented approach are significant and encouraging and can be the premises for further research efforts in this context.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/12764