Survival analysis is a field of statistics that involves the study of the time until a certain event of interest occurs. This time is generally referred to as ’survival time’ and, mathematically, it can be interpreted as a variable that takes on non-negative values. Survival analysis plays a fundamental role in various sectors, from medical to industrial, and of particular interest to us is its application in predicting the survival time of the pipes in the gas grid of Milan. In this case, the term ’survival time’ refers to the time until a leak occurs. The objective of the thesis is to provide a risk-based priority order for the pipes, in order to better plan maintenance and replacement interventions on the gas grid, preventing leaks. For this purpose, the results obtained using the following model families are compared: Parametric Regression Models (distinguished into Proportional Hazard Models and Accelerated Failure Time Models) and XGBoost Survival Embeddings Models. The performance of these models is compared using specific metrics, aimed at assessing the ability of identifying as more risky those pipes that have actually presented leaks. For project purposes, the optimal model turned out to be the LogLogisticAFT model, which is a good compromise between computational complexity and performance obtained. Finally, the output of this model is illustrated through some screenshots extracted from the results visualization tool, implemented in Microsoft PowerBI.
L'analisi di sopravvivenza è un campo della statistica inerente allo studio del tempo fino al verificarsi di un certo evento di interesse. A questo tempo ci si riferisce generalmente con l'espressione "tempo di sopravvivenza" e, in termini matematici, esso può essere interpretato come un variabile che assume valori non negativi. L'analisi di sopravvivenza riveste un ruolo fondamentale in diversi settori, da quello medico a quello industriale, di nostro interesse è la sua applicazione nel prevedere il tempo di sopravvivenza delle tubazioni della rete gas del comune di Milano. In questo caso, l'espressione "tempo di sopravvivenza" indica il tempo fino al verificarsi di una dispersione. L'obiettivo della tesi è fornire un ordine di priorità nelle tubazioni, basato sul rischio, in modo da pianificare al meglio gli interventi di manutenzione e sostituzione sulla rete gas, prevenendo il verificarsi di dispersioni. A tale scopo, vengono confrontati i risultati ottenuti utilizzando le seguenti famiglie di modelli: Modelli di Regressione Parametrici (distinti in Modelli con Azzardo Proporzionale e Modelli Accelerated Failure Time) e Modelli XGBoost Survival Embeddings. Le performance di questi modelli vengono confrontate utilizzando delle metriche specifiche, volte a valutare la capacità di identificare come più rischiose le tubazioni che hanno effettivamente presentato dispersioni. Per i fini progettuali, il modello ottimale è risultato essere il modello LogLogisticAFT, che rappresenta un buon compromesso tra complessità computazionale e performance ottenute. Infine, l'output di questo modello viene illustrato tramite alcune schermate estratte dallo strumento di visualizzazione dei risultati, implementato in Microsoft PowerBI.
Manutenzione Predittiva della Rete Gas di Milano: Metodi di Machine Learning e Modelli di Sopravvivenza
ESPOSITO, GIULIA
2022/2023
Abstract
Survival analysis is a field of statistics that involves the study of the time until a certain event of interest occurs. This time is generally referred to as ’survival time’ and, mathematically, it can be interpreted as a variable that takes on non-negative values. Survival analysis plays a fundamental role in various sectors, from medical to industrial, and of particular interest to us is its application in predicting the survival time of the pipes in the gas grid of Milan. In this case, the term ’survival time’ refers to the time until a leak occurs. The objective of the thesis is to provide a risk-based priority order for the pipes, in order to better plan maintenance and replacement interventions on the gas grid, preventing leaks. For this purpose, the results obtained using the following model families are compared: Parametric Regression Models (distinguished into Proportional Hazard Models and Accelerated Failure Time Models) and XGBoost Survival Embeddings Models. The performance of these models is compared using specific metrics, aimed at assessing the ability of identifying as more risky those pipes that have actually presented leaks. For project purposes, the optimal model turned out to be the LogLogisticAFT model, which is a good compromise between computational complexity and performance obtained. Finally, the output of this model is illustrated through some screenshots extracted from the results visualization tool, implemented in Microsoft PowerBI.È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/17516