Normal view MARC view ISBD view

Understanding the performance of machine learning models to predict credit default electrónico a novel approach for supervisory evaluation Andrés Alonso and José Manuel Carbó

By: Alonso, Andrés.
Contributor(s): Carbó, José Manuel.
Material type: TextTextSeries: Banco de España. Documentos de trabajo ; 2105.Publisher: Madrid Banco de España 2021Description: 44 p.Subject(s): ESPAÑA | DEUDORES Y ACREEDORES | SOBREENDEUDAMIENTO DE PARTICULARES | PAGO | MODELOS ECONOMETRICOSOnline resources: Click here to access online Summary: In this paper we study the performance of several machine learning (ML) models for credit default prediction. We do so by using a unique and anonymized database from a major Spanish bank. We compare the statistical performance of a simple and traditionally used model like the Logistic Regression (Logit), with more advanced ones like Lasso penalized logistic regression, Classification And Regression Tree (CART), Random Forest, XGBoost and Deep Neural Networks. Following the process deployed for the supervisory validation of Internal Rating-Based (IRB) systems, we examine the benefits of using ML in terms of predictive power, both in classification and calibration. Running a simulation exercise for different sample sizes and number of features we are able to isolate the information advantage associated to the access to big amounts of data, and measure the ML model advantage. Despite the fact that ML models outperforms Logit both in classification and in calibration, more complex ML algorithms do not necessarily predict better. We then translate this statistical performance into economic impact. We do so by estimating the savings in regulatory capital when using ML models instead of a simpler model like Lasso to compute the risk-weighted assets. Our benchmark results show that implementing XGBoost could yield savings from 12.4% to 17% in terms of regulatory capital requirements under the IRB approach. This leads us to conclude that the potential benefits in economic terms for the institutions would be significant and this justify further research to better understand all the risks embedded in ML models.Summary: En este artículo estudiamos el rendimiento de diferentes modelos de aprendizaje automático —machine learning (ML)— en la predicción de incumplimiento crediticio. Para ello hemos utilizado una base de datos única y anónima de uno de los bancos españoles más importantes. Hemos comparado el rendimiento estadístico de los modelos tradicionalmente más usados, como la regresión logística (Logit), con modelos más avanzados, como la regresión logística penalizada (Lasso), árboles de clasificación y regresión, bosques aleatorios, XGBoost y redes neuronales profundas. Siguiendo el proceso de validación supervisora de sistemas basados en calificaciones internas —Internal ratings-based approach (IRB)— hemos examinado los beneficios en poder predictivo de usar técnicas de ML, tanto para clasificar como para calibrar. Hemos realizado simulaciones con diferentes tamaños de muestras y número de variables explicativas para aislar las ventajas que pueden tener los modelos de ML asociadas al acceso de grandes cantidades de datos, de las ventajas propias de los modelos de ML. Encontramos que los modelos de ML tienen un mejor rendimiento que Logit tanto en clasificación como en calibración, aunque los modelos más complejos de ML no son necesariamente los que predicen mejor. Posteriormente traducimos esta mejoría en rendimiento estadístico a impacto económico. Para ello estimamos el ahorro en capital regulatorio cuando usamos modelos de ML en lugar de métodos tradicionales para calcular los activos ponderados en función del riesgo. Nuestros resultados indican que usar XGBoost en lugar de Lasso puede resultar en ahorros de un 12,4% a un 17%, en términos de capital regulatorio, cuando utilizamos el proceso IRB. Esto nos lleva a concluir que los beneficios potenciales de usar ML, en términos económicos, serían significativos para las instituciones, lo que justifica una mayor investigación para comprender mejor todos los riesgos incorporados en los modelos de ML.
Tags from this library: No tags from this library for this title. Log in to add tags.
    average rating: 0.0 (0 votes)

Disponible en formato PDF en el repositorio de la Biblioteca del IEF con el nombre : OL 1799

In this paper we study the performance of several machine learning (ML) models for
credit default prediction. We do so by using a unique and anonymized database from a
major Spanish bank. We compare the statistical performance of a simple and traditionally
used model like the Logistic Regression (Logit), with more advanced ones like Lasso
penalized logistic regression, Classification And Regression Tree (CART), Random
Forest, XGBoost and Deep Neural Networks. Following the process deployed for the
supervisory validation of Internal Rating-Based (IRB) systems, we examine the benefits
of using ML in terms of predictive power, both in classification and calibration. Running
a simulation exercise for different sample sizes and number of features we are able to
isolate the information advantage associated to the access to big amounts of data, and
measure the ML model advantage. Despite the fact that ML models outperforms Logit
both in classification and in calibration, more complex ML algorithms do not necessarily
predict better. We then translate this statistical performance into economic impact. We
do so by estimating the savings in regulatory capital when using ML models instead of
a simpler model like Lasso to compute the risk-weighted assets. Our benchmark results
show that implementing XGBoost could yield savings from 12.4% to 17% in terms of
regulatory capital requirements under the IRB approach. This leads us to conclude that
the potential benefits in economic terms for the institutions would be significant and this
justify further research to better understand all the risks embedded in ML models.

En este artículo estudiamos el rendimiento de diferentes modelos de aprendizaje
automático —machine learning (ML)— en la predicción de incumplimiento crediticio. Para
ello hemos utilizado una base de datos única y anónima de uno de los bancos españoles
más importantes. Hemos comparado el rendimiento estadístico de los modelos
tradicionalmente más usados, como la regresión logística (Logit), con modelos más
avanzados, como la regresión logística penalizada (Lasso), árboles de clasificación
y regresión, bosques aleatorios, XGBoost y redes neuronales profundas. Siguiendo
el proceso de validación supervisora de sistemas basados en calificaciones internas
—Internal ratings-based approach (IRB)— hemos examinado los beneficios en poder
predictivo de usar técnicas de ML, tanto para clasificar como para calibrar. Hemos
realizado simulaciones con diferentes tamaños de muestras y número de variables
explicativas para aislar las ventajas que pueden tener los modelos de ML asociadas
al acceso de grandes cantidades de datos, de las ventajas propias de los modelos de
ML. Encontramos que los modelos de ML tienen un mejor rendimiento que Logit tanto
en clasificación como en calibración, aunque los modelos más complejos de ML no
son necesariamente los que predicen mejor. Posteriormente traducimos esta mejoría
en rendimiento estadístico a impacto económico. Para ello estimamos el ahorro en
capital regulatorio cuando usamos modelos de ML en lugar de métodos tradicionales
para calcular los activos ponderados en función del riesgo. Nuestros resultados indican
que usar XGBoost en lugar de Lasso puede resultar en ahorros de un 12,4% a un
17%, en términos de capital regulatorio, cuando utilizamos el proceso IRB. Esto nos
lleva a concluir que los beneficios potenciales de usar ML, en términos económicos,
serían significativos para las instituciones, lo que justifica una mayor investigación para
comprender mejor todos los riesgos incorporados en los modelos de ML.

There are no comments for this item.

Log in to your account to post a comment.

Click on an image to view it in the image viewer

Powered by Koha