Machine Learning-Based Confounding Analysis of Trauma Mortality via Optimal k-Cardinality Assignment

Clinical decision-making is a complex process that involves information processing, evaluation of evidence, and application of domain knowledge to select appropriate interventions aimed at ensuring high-quality care and minimising the risk of patient harm. This process is particularly critical in the management of trauma patients, where decisions must often be taken under time pressure and uncertainty, and inappropriate choices may have severe consequences. Over the years, healthcare professionals have been supported by classical statistical models, most notably the TMPM-ICD9 (Trauma Mortality Prediction Model based on ICD-9-CM codes), a logistic regression model designed to estimate the probability of in-hospital mortality using injury severity information. The first objective of this thesis is to compare the predictive performance of the TMPM-ICD9 model with more sophisticated predictive models based on machine learning techniques and to assess whether these approaches can provide more accurate support to clinical decision-making. The second objective addresses the problem of confounding in observational healthcare data. In particular, we investigate whether the type of hospital (hub vs. spoke) represents a confounding variable affecting in-hospital mortality outcomes. We propose a novel retrospective approach based on Optimal k-Cardinality Assignment. The method relies on a risk score computed through a predictive mortality model and aims to construct two matched populations with comparable risk profiles. To this end, we formulate an Integer Linear Programming model for a variant of the Optimal k-Cardinality Assignment problem, imposing constraints to ensure balance between the two populations. Such a model is solved through a preliminary pruning phase to reduce the number of edges in the bipartite assignment graph. The effectiveness of this approach is then compared with a heuristic Nearest-Neighbour matching strategy, which is widely adopted in the literature for confounding analysis. Finally, a case study based on a ten-year trauma patient dataset from the province of Pavia is presented. This allows us to empirically evaluate both contributions of the thesis: the comparison of predictive models for trauma mortality and the proposed confounding analysis framework. The study was conducted in collaboration with the S.C. Chirurgia Generale I of the IRCCS Policlinico San Matteo of Pavia.

Il processo decisionale clinico è complesso e comporta l'elaborazione delle informazioni, la valutazione delle prove e l'applicazione delle conoscenze specifiche per selezionare gli interventi appropriati volti a garantire un'assistenza di alta qualità e ridurre al minimo il rischio di danni per il paziente. Questo processo è particolarmente critico nella gestione dei pazienti traumatizzati, dove le decisioni devono spesso essere prese sotto pressione e in condizioni di incertezza, e scelte inappropriate possono avere gravi conseguenze. Nel corso degli anni, gli operatori sanitari sono stati supportati da modelli statistici classici, in particolare il TMPM-ICD9 (Trauma Mortality Prediction Model basato sui codici ICD-9-CM), un modello di regressione logistica progettato per stimare la probabilità di mortalità ospedaliera utilizzando le informazioni sulla gravità delle lesioni. Il primo obiettivo di questa tesi è quello di confrontare le prestazioni predittive del modello TMPM-ICD9 con modelli predittivi più sofisticati basati su tecniche di machine learning e di valutare se questi approcci possano fornire un supporto più accurato al processo decisionale clinico. Il secondo obiettivo affronta il problema dei fattori di confondimento nei dati sanitari osservazionali. In particolare, si indaga se il tipo di ospedale (hub vs. spoke) rappresenti una variabile confondente che influenza i risultati di mortalità ospedaliera. Proponiamo un nuovo approccio retrospettivo basato sull'Optimal k-Cardinality Assignment. Il metodo si basa su un punteggio di rischio calcolato attraverso un modello predittivo di mortalità e mira a costruire due popolazioni abbinate con profili di rischio comparabili. A tal fine, formuliamo un modello di programmazione lineare intera per una variante del problema di Optimal k-Cardinality Assignment, imponendo vincoli per garantire l'equilibrio tra le due popolazioni. Tale modello viene risolto attraverso una fase preliminare di pruning per ridurre il numero di archi nel grafo di assegnazione bipartito. L'efficacia di questo approccio viene poi confrontata con una strategia euristica di matching Nearest-Neighbour, ampiamente adottata in letteratura per l'analisi dei fattori di confondimento. Infine, viene presentato un caso di studio basato su un dataset decennale di pazienti traumatizzati della provincia di Pavia. Ciò ci consente di valutare empiricamente entrambi i contributi della tesi: il confronto tra modelli predittivi per la mortalità da trauma e il framework di analisi di confondimento proposto. Lo studio è stato condotto in collaborazione con la S.C. Chirurgia Generale I dell'IRCCS Policlinico San Matteo di Pavia.