A data-driven approach for advanced job scheduling using Deep Q-Networks

Ricerca avanzata

The objective of this thesis work is to tackle a challenging real-world problem regarding the scheduling of Extract, Transform and Load (ETL) operations to manage data and feed enterprise information systems. Standard algorithms are not suited for this purpose because, besides individual deadline requirements, jobs are also characterized by internal dependencies. For those reasons, a novel data-driven approach is proposed to face this complex scheduling problem without the need of manually designing an algorithm from scratch. The implemented model adopts state-of-the-art techniques in Machine Learning, like Deep Q-Networks (DQN), Double Dueling DQN (D3QN) and Graph Convolutional Networks (GCN) for interpreting the dependency conditions between the jobs and learning how to make sequential scheduling decisions. The outcome is an agent trained through the development of a framework for the simulation of realistic workload scenarios. The results achieved by the presented approach are significant and encouraging and can be the premises for further research efforts in this context.

Un approccio data-driven per la pianificazione avanzata di processi tramite l'utilizzo di Deep Q-Network. L'obiettivo di questo lavoro di tesi consiste nell'affrontare un impegnativo problema reale riguardante la pianificazione di operazioni di Extract, Transform, e Load (ETL) per la gestione di dati e immissione in sistemi informatici aziendali. Gli algoritmi standard non sono adatti a questo proposito, in quanto, oltre a scadenze individuali, i processi sono caratterizzati anche da dipendenze interne. Per queste ragioni, un nuovo approccio data-driven viene proposto per affrontare questo complesso problema di pianificazione senza la necessità di progettare un algoritmo da zero. Il modello implementato adotta tecniche all'avanguardia nel Machine Learning, come le Deep Q-Network (DQN), Double Dueling DQN (D3QN) e le Graph Convolutional Network (GCN) per l'interpretazione delle condizioni di dipendenza tra i processi e l'apprendimento di una strategia per effettuare decisioni di scheduling sequenziali. Il risultato è un agente addestrato tramite lo sviluppo di un framework per la simulazione di carichi di lavoro realistici. Gli esiti ottenuti dall'approccio proposto sono significativi e incoraggianti, e possono costituire le premesse per ulteriori sforzi di ricerca in questo contesto.

A data-driven approach for advanced job scheduling using Deep Q-Networks

ZORZATO, RICCARDO

2019/2020

Abstract

The objective of this thesis work is to tackle a challenging real-world problem regarding the scheduling of Extract, Transform and Load (ETL) operations to manage data and feed enterprise information systems. Standard algorithms are not suited for this purpose because, besides individual deadline requirements, jobs are also characterized by internal dependencies. For those reasons, a novel data-driven approach is proposed to face this complex scheduling problem without the need of manually designing an algorithm from scratch. The implemented model adopts state-of-the-art techniques in Machine Learning, like Deep Q-Networks (DQN), Double Dueling DQN (D3QN) and Graph Convolutional Networks (GCN) for interpreting the dependency conditions between the jobs and learning how to make sequential scheduling decisions. The outcome is an agent trained through the development of a framework for the simulation of realistic workload scenarios. The results achieved by the presented approach are significant and encouraging and can be the premises for further research efforts in this context.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				DIPARTIMENTO DI INGEGNERIA INDUSTRIALE E DELL'INFORMAZIONE
			
	Corso di studio
	
				COMPUTER ENGINEERING [06415]
			
	Anno Accademico
	
				2019
			
	Titolo inglese
	
				A data-driven approach for advanced job scheduling using Deep Q-Networks
			
	Abstract in italiano
	
				Un approccio data-driven per la pianificazione avanzata di processi tramite l'utilizzo di Deep Q-Network.
L'obiettivo di questo lavoro di tesi consiste nell'affrontare un impegnativo problema reale riguardante la pianificazione di operazioni di Extract, Transform, e Load (ETL) per la gestione di dati e immissione in sistemi informatici aziendali. Gli algoritmi standard non sono adatti a questo proposito, in quanto, oltre a scadenze individuali, i processi sono caratterizzati anche da dipendenze interne. Per queste ragioni, un nuovo approccio data-driven viene proposto per affrontare questo complesso problema di pianificazione senza la necessità di progettare un algoritmo da zero. Il modello implementato adotta tecniche all'avanguardia nel Machine Learning, come le Deep Q-Network (DQN), Double Dueling DQN (D3QN) e le Graph Convolutional Network (GCN) per l'interpretazione delle condizioni di dipendenza tra i processi e l'apprendimento di una strategia per effettuare decisioni di scheduling sequenziali. Il risultato è un agente addestrato tramite lo sviluppo di un framework per la simulazione di carichi di lavoro realistici. Gli esiti ottenuti dall'approccio proposto sono significativi e incoraggianti, e possono costituire le premesse per ulteriori sforzi di ricerca in questo contesto.
			
	Relatore
	
				CUSANO, CLAUDIO
NOCERA, ANTONINO
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/12764