Credit scoring has been a crucial concern for banks aiming to identify creditworthy borrowers and minimize potential financial losses caused by default risk. However, the focus has now shifted from merely determining whether a borrower is eligible for a loan to estimating the probabilities of default at different time points. To address this challenge, this thesis proposes the use of survival analysis, a powerful statistical tool primarily used in biostatistics to model the time until an event occurs. In this context, survival analysis is applied to model the time until a borrower defaults. Notably, it is reasonable to assume the existence of a subpopulation of borrowers who will never default, often referred to as “cured”. To account for this, mixture cure models are utilized which combine a component to estimate the cure rate and a survival component to model the time-to-event for susceptible individuals. In this study, we propose two models: a classical Weibull model and a mixture cure model. The mixture cure model consists of a logistic component for the cure rate and a Weibull component associated for the survival probabilities of susceptible individuals. Both models are implemented on a dataset of mortgage loans with diverse characteristics. The models are evaluated based on their goodness of fit using the Kaplan-Meier estimator and residuals graphs. Furthermore, their predictive performance is assessed using a train-test split approach. The results indicate that the mixture cure model not only provides a better fit to the data but also delivers more accurate predictions compared to the classical Weibull model.

La valutazione del merito creditizio rappresenta da sempre una questione fondamentale per le banche, che mirano a identificare i soggetti affidabili e a ridurre al minimo le potenziali perdite finanziarie derivanti dal rischio di insolvenza. Tuttavia, l’attenzione si è progressivamente spostata: non si tratta più solo di stabilire se un richiedente sia idoneo a ricevere un prestito, ma di stimare la probabilità di default in diversi momenti nel tempo. Per affrontare questa sfida, la presente tesi propone l’utilizzo della survival analysis, uno strumento statistico ampiamente impiegato in ambito biomedico per modellare il tempo fino al verificarsi di un determinato evento. In questo contesto, viene applicata per analizzare il tempo che intercorre fino al default di un mutuatario. È ragionevole ipotizzare l’esistenza di una sottopopolazione di soggetti che non andranno mai in default, noti come “cured”. Per tenere conto di questo aspetto, si ricorre ai mixture cure models, che combinano una componente per stimare la proporzione di soggetti curati e una componente di sopravvivenza per modellare il tempo fino all’evento nei soggetti suscettibili. In questo studio vengono proposti due modelli: un modello classico di Weibull e un mixture cure model. Quest’ultimo include una componente logistic per la stima della proporzione di soggetti curati e una componente di Weibull per modellare le probabilità di sopravvivenza nei soggetti a rischio di default. Entrambi i modelli vengono applicati a un dataset di mutui ipotecari con caratteristiche eterogenee. La loro valutazione si basa sull’analisi dell’adattamento ai dati mediante l’estimatore di Kaplan-Meier e l’analisi dei residuals. Inoltre, la capacità predittiva viene analizzata attraverso una suddivisione del campione in dati di training e di test. I risultati mostrano che il mixture cure model non solo si adatta meglio ai dati, ma fornisce anche previsioni più accurate rispetto al modello di Weibull classico.

Mixture Cure Models per la valutazione del merito creditizio

PAPAGEORGIOU, ATHINA
2024/2025

Abstract

Credit scoring has been a crucial concern for banks aiming to identify creditworthy borrowers and minimize potential financial losses caused by default risk. However, the focus has now shifted from merely determining whether a borrower is eligible for a loan to estimating the probabilities of default at different time points. To address this challenge, this thesis proposes the use of survival analysis, a powerful statistical tool primarily used in biostatistics to model the time until an event occurs. In this context, survival analysis is applied to model the time until a borrower defaults. Notably, it is reasonable to assume the existence of a subpopulation of borrowers who will never default, often referred to as “cured”. To account for this, mixture cure models are utilized which combine a component to estimate the cure rate and a survival component to model the time-to-event for susceptible individuals. In this study, we propose two models: a classical Weibull model and a mixture cure model. The mixture cure model consists of a logistic component for the cure rate and a Weibull component associated for the survival probabilities of susceptible individuals. Both models are implemented on a dataset of mortgage loans with diverse characteristics. The models are evaluated based on their goodness of fit using the Kaplan-Meier estimator and residuals graphs. Furthermore, their predictive performance is assessed using a train-test split approach. The results indicate that the mixture cure model not only provides a better fit to the data but also delivers more accurate predictions compared to the classical Weibull model.
2024
Mixture Cure Models for credit scoring
La valutazione del merito creditizio rappresenta da sempre una questione fondamentale per le banche, che mirano a identificare i soggetti affidabili e a ridurre al minimo le potenziali perdite finanziarie derivanti dal rischio di insolvenza. Tuttavia, l’attenzione si è progressivamente spostata: non si tratta più solo di stabilire se un richiedente sia idoneo a ricevere un prestito, ma di stimare la probabilità di default in diversi momenti nel tempo. Per affrontare questa sfida, la presente tesi propone l’utilizzo della survival analysis, uno strumento statistico ampiamente impiegato in ambito biomedico per modellare il tempo fino al verificarsi di un determinato evento. In questo contesto, viene applicata per analizzare il tempo che intercorre fino al default di un mutuatario. È ragionevole ipotizzare l’esistenza di una sottopopolazione di soggetti che non andranno mai in default, noti come “cured”. Per tenere conto di questo aspetto, si ricorre ai mixture cure models, che combinano una componente per stimare la proporzione di soggetti curati e una componente di sopravvivenza per modellare il tempo fino all’evento nei soggetti suscettibili. In questo studio vengono proposti due modelli: un modello classico di Weibull e un mixture cure model. Quest’ultimo include una componente logistic per la stima della proporzione di soggetti curati e una componente di Weibull per modellare le probabilità di sopravvivenza nei soggetti a rischio di default. Entrambi i modelli vengono applicati a un dataset di mutui ipotecari con caratteristiche eterogenee. La loro valutazione si basa sull’analisi dell’adattamento ai dati mediante l’estimatore di Kaplan-Meier e l’analisi dei residuals. Inoltre, la capacità predittiva viene analizzata attraverso una suddivisione del campione in dati di training e di test. I risultati mostrano che il mixture cure model non solo si adatta meglio ai dati, ma fornisce anche previsioni più accurate rispetto al modello di Weibull classico.
File in questo prodotto:
File Dimensione Formato  
Papageorgiou Athina_Thesis.pdf

accesso aperto

Dimensione 1.43 MB
Formato Adobe PDF
1.43 MB Adobe PDF Visualizza/Apri

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: unitesi@unipv.it.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/30990