Insurance companies require effective and explainable credit-based insurance score models to properly evaluate potential insured’s degree of risk. Making accurate and transparent predictions of insurance ratings is a crucial issue that may lead to a wider adoption of machine learning algorithms. A panel data including the credit history of 534 firms between 2015 and 2017 was collected, containing internal rating assessment together with securitization and fundamental features. In this thesis, the determinants of credit ratings have been analyzed as function of financial and business features with standard baseline models like random forest and ordered probit model; then, standard specifications have been augmented by introducing dynamics to analyze persistence in credit rating and compare the predictive power of the two-modelling framework. Then, postmodelling results have been interpreted with innovative model-agnostic interpretation methods such as SHAP values. The good performance of random forest algorithm is in line with other results in literature and, as ensemble of historical classification trees, seems to be a good choice for machine learning applications in credit risk. The analysis reveals that size, capitalization, leverage and profitability represent the main rating drivers and the dynamic component is a statistically significant discriminant between algorithms in terms of macro-weighted accuracy; in particular, autoregressive behavior of the model seems to be necessary to better identify the riskiest rating classes. The hrf model resulting from data mining feature selection and classification metrics is found to yield a good accuracy, with 90% of macro-weighted F1-score for train set and 75% for test set.

Le compagnie di assicurazione richiedono modelli di punteggio assicurativo basati sulla storia creditizia che siano efficaci e spiegabili per valutare adeguatamente il grado di rischio del potenziale assicurato. Fare previsioni accurate e trasparenti dei rating assicurativi è una questione cruciale che può portare a una più ampia adozione di algoritmi di apprendimento automatico. È stato raccolto un panel di dati comprendente la storia creditizia di 534 imprese tra il 2015 e il 2017, contenente la valutazione interna del rating insieme a variabili di cartolarizzazione e fondamentali. In questa tesi, le determinanti dei punteggi di rating sono state analizzate in funzione delle caratteristiche finanziarie e aziendali con modelli standard di riferimento come il modello Random Forest e Ordered Probit; dopo, le specifiche standard sono state potenziate introducendo dinamicità temporale per analizzare la persistenza nel rating e confrontare il potere predittivo del framework dei due modelli. Quindi, i risultati sono stati interpretati con metodi di interpretazione innovativi indipendenti dal modello come i valori SHAP. La buona prestazione dell'algoritmo Random Forest è in linea con altri risultati in letteratura e, come insieme di alberi di classificazione storica, sembra essere una buona scelta per le applicazioni di apprendimento automatico nel rischio di credito. Dall'analisi emerge che dimensione, capitalizzazione, leva finanziaria e redditività rappresentano i principali driver del punteggio di rating e la componente dinamica è una discriminante statisticamente significativa tra gli algoritmi in termini di accuratezza macro ponderata; in particolare, un comportamento autoregressivo del modello sembra essere necessario per meglio identificare le classi di rating più rischiose. Il modello Hrf risultante dalle tecniche di data mining riguardo la selezione delle variabili e dalle metriche di classificazione ha dimostrato di fornire una buona accuratezza, con il 90% del punteggio F1 macro ponderato per il campione di addestramento e il 75% per il set di validazione.

Studio comparativo del quadro di modellazione statica e dinamica per la valutazione del rischio di credito nelle compagnie di assicurazione.

TARANTINO, BARBARA
2019/2020

Abstract

Insurance companies require effective and explainable credit-based insurance score models to properly evaluate potential insured’s degree of risk. Making accurate and transparent predictions of insurance ratings is a crucial issue that may lead to a wider adoption of machine learning algorithms. A panel data including the credit history of 534 firms between 2015 and 2017 was collected, containing internal rating assessment together with securitization and fundamental features. In this thesis, the determinants of credit ratings have been analyzed as function of financial and business features with standard baseline models like random forest and ordered probit model; then, standard specifications have been augmented by introducing dynamics to analyze persistence in credit rating and compare the predictive power of the two-modelling framework. Then, postmodelling results have been interpreted with innovative model-agnostic interpretation methods such as SHAP values. The good performance of random forest algorithm is in line with other results in literature and, as ensemble of historical classification trees, seems to be a good choice for machine learning applications in credit risk. The analysis reveals that size, capitalization, leverage and profitability represent the main rating drivers and the dynamic component is a statistically significant discriminant between algorithms in terms of macro-weighted accuracy; in particular, autoregressive behavior of the model seems to be necessary to better identify the riskiest rating classes. The hrf model resulting from data mining feature selection and classification metrics is found to yield a good accuracy, with 90% of macro-weighted F1-score for train set and 75% for test set.
2019
A comparative study of static and dynamic modeling framework for credit risk assessment in insurance companies.
Le compagnie di assicurazione richiedono modelli di punteggio assicurativo basati sulla storia creditizia che siano efficaci e spiegabili per valutare adeguatamente il grado di rischio del potenziale assicurato. Fare previsioni accurate e trasparenti dei rating assicurativi è una questione cruciale che può portare a una più ampia adozione di algoritmi di apprendimento automatico. È stato raccolto un panel di dati comprendente la storia creditizia di 534 imprese tra il 2015 e il 2017, contenente la valutazione interna del rating insieme a variabili di cartolarizzazione e fondamentali. In questa tesi, le determinanti dei punteggi di rating sono state analizzate in funzione delle caratteristiche finanziarie e aziendali con modelli standard di riferimento come il modello Random Forest e Ordered Probit; dopo, le specifiche standard sono state potenziate introducendo dinamicità temporale per analizzare la persistenza nel rating e confrontare il potere predittivo del framework dei due modelli. Quindi, i risultati sono stati interpretati con metodi di interpretazione innovativi indipendenti dal modello come i valori SHAP. La buona prestazione dell'algoritmo Random Forest è in linea con altri risultati in letteratura e, come insieme di alberi di classificazione storica, sembra essere una buona scelta per le applicazioni di apprendimento automatico nel rischio di credito. Dall'analisi emerge che dimensione, capitalizzazione, leva finanziaria e redditività rappresentano i principali driver del punteggio di rating e la componente dinamica è una discriminante statisticamente significativa tra gli algoritmi in termini di accuratezza macro ponderata; in particolare, un comportamento autoregressivo del modello sembra essere necessario per meglio identificare le classi di rating più rischiose. Il modello Hrf risultante dalle tecniche di data mining riguardo la selezione delle variabili e dalle metriche di classificazione ha dimostrato di fornire una buona accuratezza, con il 90% del punteggio F1 macro ponderato per il campione di addestramento e il 75% per il set di validazione.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/315