This thesis introduces a novel methodology for constructing unified multiclass ROC curves using the multidimensional Gini index, addressing critical limitations in existing multiclass classification evaluation approaches. Traditional methods suffer from fundamental flaws: macro-averaging treats classes with different sample sizes identically, while micro-averaging allows majority classes to dominate, potentially masking failures in critical minority classes. The proposed methodology leverages the established relationship between the Gini coefficient and ROC analysis (G = 2 * AUC - 1) and extends this framework to multiclass settings through the multidimensional Gini index. The approach employs Zero-phase Component Analysis (ZCA) correlation whitening with numerical stabilization to ensure scale invariance and computational robustness. Unlike traditional frequency-based weighting, the methodology generates class-specific weights based on discriminative power, providing a unified ROC curve that reflects genuine classification ability. The framework is validated through a comprehensive case study using 1,724 Italian Small and Medium-sized Enterprises (SMEs) spanning 2020-2022, incorporating financial metrics and ESG ratings for credit risk assessment across nine ordinal rating classes. The methodology achieves an empirical multiclass AUC of 0.85, validated through Mahalanobis distance analysis confirming genuine class separability. Complemented the multiclass ROC curve methodology with SAFE AI RGR robustness analysis, which reveals moderate model stability (RGR values ~0.54-0.55) and addresses EU AI Act requirements for reliable performance under uncertainty. Interactive visualization tools enable real-time threshold optimization supporting regulatory compliance in high-stakes financial environments. This research provides a theoretically grounded solution to multiclass performance evaluation, particularly valuable for imbalanced datasets in regulated domains where discriminative power should take precedence over class frequency considerations.
Questa tesi introduce una metodologia innovativa per la costruzione di curve ROC multiclasse unificate utilizzando l'indice di Gini multidimensionale, affrontando le limitazioni critiche degli approcci esistenti per la valutazione della classificazione multiclasse. I metodi tradizionali soffrono di difetti fondamentali: il macro-averaging tratta classi con dimensioni campionarie diverse in modo identico, mentre il micro-averaging consente alle classi maggioritarie di dominare, potenzialmente mascherando i fallimenti nelle classi minoritarie critiche. La metodologia proposta sfrutta la relazione consolidata tra il coefficiente di Gini e l'analisi ROC (G = 2 * AUC - 1) ed estende questo framework ai contesti multiclasse attraverso l'indice di Gini multidimensionale. L'approccio utilizza l'Analisi delle Componenti a Fase Zero (ZCA) con sbiancamento di correlazione e stabilizzazione numerica per garantire invarianza di scala e robustezza computazionale. A differenza della ponderazione tradizionale basata sulla frequenza, la metodologia genera pesi specifici per classe basati sul potere discriminativo, fornendo una curva ROC unificata che riflette la genuina capacità di classificazione. Il framework è validato attraverso un caso studio che comprende 1.724 Piccole e Medie Imprese (PMI) italiane nel periodo 2020-2022, incorporando metriche finanziarie e rating ESG per la valutazione del rischio di credito attraverso nove classi di rating ordinali. La metodologia raggiunge un AUC multiclasse empirico di 0.85, validato attraverso l'analisi della distanza di Mahalanobis che conferma la genuina separabilità delle classi. La metodologia della curva ROC multiclasse è integrata con l'analisi di robustezza SAFE AI RGR, che rivela una moderata stabilità del modello (valori RGR ~0.54-0.55) e soddisfa i requisiti dell'AI Act dell'UE per prestazioni affidabili in condizioni di incertezza. Gli strumenti di visualizzazione interattiva consentono l'ottimizzazione delle soglie decisionali in tempo reale, supportando la conformità normativa in ambienti finanziari ad alto rischio. Questa ricerca fornisce una soluzione teoricamente fondata per la valutazione delle prestazioni multiclasse, particolarmente preziosa per dataset sbilanciati in domini regolamentati dove il potere discriminativo dovrebbe avere precedenza sulle considerazioni di frequenza delle classi.
AGGREGAZIONE DI CURVE ROC MULTICLASSE CON APPLICAZIONI ALLA GESTIONE DEL RISCHIO ESG E CREDITIZIO
ROSCIANO, ROSA CAROLINA
2024/2025
Abstract
This thesis introduces a novel methodology for constructing unified multiclass ROC curves using the multidimensional Gini index, addressing critical limitations in existing multiclass classification evaluation approaches. Traditional methods suffer from fundamental flaws: macro-averaging treats classes with different sample sizes identically, while micro-averaging allows majority classes to dominate, potentially masking failures in critical minority classes. The proposed methodology leverages the established relationship between the Gini coefficient and ROC analysis (G = 2 * AUC - 1) and extends this framework to multiclass settings through the multidimensional Gini index. The approach employs Zero-phase Component Analysis (ZCA) correlation whitening with numerical stabilization to ensure scale invariance and computational robustness. Unlike traditional frequency-based weighting, the methodology generates class-specific weights based on discriminative power, providing a unified ROC curve that reflects genuine classification ability. The framework is validated through a comprehensive case study using 1,724 Italian Small and Medium-sized Enterprises (SMEs) spanning 2020-2022, incorporating financial metrics and ESG ratings for credit risk assessment across nine ordinal rating classes. The methodology achieves an empirical multiclass AUC of 0.85, validated through Mahalanobis distance analysis confirming genuine class separability. Complemented the multiclass ROC curve methodology with SAFE AI RGR robustness analysis, which reveals moderate model stability (RGR values ~0.54-0.55) and addresses EU AI Act requirements for reliable performance under uncertainty. Interactive visualization tools enable real-time threshold optimization supporting regulatory compliance in high-stakes financial environments. This research provides a theoretically grounded solution to multiclass performance evaluation, particularly valuable for imbalanced datasets in regulated domains where discriminative power should take precedence over class frequency considerations.| File | Dimensione | Formato | |
|---|---|---|---|
|
Thesis_Rosa_Carolina_Rosciano.pdf
embargo fino al 07/10/2026
Dimensione
5.36 MB
Formato
Adobe PDF
|
5.36 MB | Adobe PDF | Richiedi una copia |
È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.
https://hdl.handle.net/20.500.14239/30905