ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1167)

http://www.aulavirtual.web.ve

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1168)

http://www.aulavirtual.web.ve

REVISTA CIENTÍFICA

AULA VIRTUAL

Director Editor:

La Revista seriada Científica Arbitrada e Indexada

Aula Virtual, es de acceso abierto y en formato

electrónico; la misma está orientada a la

divulgación de las producciones científicas creadas

por investigadores en diversas áreas del

conocimiento. Su cobertura temática abarca

Tecnología, Ciencias de la Salud, Ciencias

Administrativas, Ciencias Sociales, Ciencias

Jurídicas y Políticas, Ciencias Exactas y otras áreas

afines. Su publicación es CONTINUA, indexada y

arbitrada por especialistas en el área, bajo la

modalidad de doble ciego. Se reciben las

producciones tipo: Artículo Científico en las

diferentes modalidades cualitativas y cuantitativas,

Avances Investigativos, Ensayos, Reseñas

Bibliográficas, Ponencias o publicaciones

derivada de eventos, y cualquier otro tipo de

investigación orientada al tratamiento y

profundización de la información de los campos de

estudios de las diferentes ciencias. La Revista Aula

Virtual, busca fomentar la divulgación del

conocimiento científico y el pensamiento crítico

reflexivo en el ámbito investigativo.

• Dra. Leidy Hernández PhD.

• Dr. Fernando Bárbara

Consejo Asesor:

• MSc. Manuel Mujica

• MSc. Wilman Briceño

• Dra. Harizmar Izquierdo

• Dr. José Gregorio Sánchez

Revista Científica Arbitrada de

Fundación Aula Virtual

Email: revista@aulavirtual.web.ve

URL: http://aulavirtual.web.ve/revista

ISSN:

Depósito Legal:

País:

Año de Inicio:

Periodicidad:

Sistema de Arbitraje:

Licencia:

Volumen:

Número:

Año:

Período:

Dirección Fiscal:

2665-0398

LA2020000026

Venezuela

2020

Continua

Revisión por pares. “Doble Ciego”

Creative Commons CC BY NC ND

2026

Enero 2026 - Junio 2026 (continua)

Av. Libertador, Arca del Norte, Nro.

52D, Barquisimeto estado Lara,

Venezuela, C.P. 3001

Generando Conocimiento

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1169)

http://www.aulavirtual.web.ve

EVALUACIÓN DEL MODELO RANDOM FOREST COMO HERRAMIENTA DE

PREDICCIÓN DEL RIESGO CREDITICIO EN ESTUDIANTES UNIVERSITARIOS

EVALUATION OF THE RANDOM FOREST MODEL AS A TOOL FOR PREDICTING

CREDIT RISK IN UNIVERSITY STUDENTS

Tipo de Publicación: Articulo Científico

Área del Conocimiento: Ciencias Sociales y Aplicadas

Recibido: 20/03/2026

Aceptado: 22/04/2026

Publicado: 26/05/2026

Código Único AV: e707

Páginas: 1(1167-1195)

DOI: https://doi.org/10.5281/zenodo.20394963

Autores:

César Gerardo León Velarde

Licenciado en Educación: Filosofía y CC.SS.

Maestría en Educación: Gestión de la Educación.

Maestría en Educación: Evaluación Calidad Educativa

Doctor en Educación

https://orcid.org/0000-0002-8273-1995

E-mail: cleon@unfv.edu.pe

Afiliación: Universidad Nacional Federico Villarreal

País: República del Perú

Yenso Rodrigo Lino García

Estudiante de Ingeniería de Sistemas

https://orcid.org/0009-0001-4327-9553

E-mail: 2024024326@unfv.edu.pe

Afiliación: Universidad Nacional Federico Villarreal

País: República del Perú

Guillermo Victor Solano Rosembertt

Ingeniero de Sistemas

https://orcid.org/0000-0002-4478-4543

E-mail: 2019703556@unfv.edu.pe

Afiliación: Universidad Nacional Federico Villarreal

País: República del Perú

Resumen

El riesgo crediticio para los estudiantes universitarios es uno de los problemas en

aumento en el ambiente de baja inclusión financiera que se asocia con Perú.

Muchos jóvenes recurren a préstamos informales o tienen dificultades para acceder

al crédito formal. Para tales prestatarios, se aplica un algoritmo de aprendizaje

automático para medir la evaluación del puntaje crediticio, donde el algoritmo

Random Forest (RF) es popular debido a su capacidad de predicción y la

complejidad de las variables. El propósito del estudio es investigar los factores

relevantes del riesgo crediticio según el comportamiento socioeconómico,

académico y financiero de los estudiantes universitarios peruanos; verificar la

predicción hecha por el modelo RF en comparación con el modelo tradicional. El

diseño del estudio adoptado fue cuantitativo, básico y no experimental de corte

transversal. Se utilizaron cuestionarios e investigaciones de bases de datos para la

recolección de datos. Para sostener el marco teórico, se utilizaron el diagrama de

Pareto, el diagrama de Ishikawa como herramientas de análisis. Los datos fueron

preprocesados y el modelo Random Forest fue entrenado con validación cruzada y

precisión, recall, F1 como métricas. En cuanto a los resultados obtenidos, el modelo

alcanzó una precisión del 78% en la clasificación del riesgo crediticio. Las variables

clave fueron los ingresos familiares, el historial de pagos, el uso de la tarjeta de

crédito y el rendimiento académico, lo que demuestra que Random Forest es un

modelo fuerte de predicción de riesgo crediticio en comparación con las tecnologías

tradicionales. Puede ser utilizado para mejorar la toma de decisiones financieras,

disminuir la morosidad y proporcionar políticas de financiamiento más equitativas

y seguras para los estudiantes universitarios.

Palabras Clave

Riesgo crediticio, machine learning, random forest,

estudiantes universitarios, factores

socioeconómicos.

Abstract

Credit risk for university students is one of the growing problems in the context of

low financial inclusion associated with Peru. Many young people resort to informal

loans or face difficulties in accessing formal credit. For such borrowers, a machine

learning algorithm is applied to measure credit score assessment, with the Random

Forest algorithm being popular due to its predictive capacity and ability to handle

complex variables. The purpose of the study was to investigate the relevant factors

of credit risk according to the socioeconomic, academic, and financial behavior of

Peruvian university students, and to verify the predictions made by the RF model

compared to the traditional model. The study design adopted was quantitative,

basic, and non-experimental with a cross-sectional approach. Questionnaires and

database inquiries were used for data collection. To support the theoretical

framework, Pareto diagrams, Ishikawa diagrams, and VOS viewer were applied as

analysis tools. The data were preprocessed, and the Random Forest model was

trained with cross-validation using accuracy, recall, and F1 as metrics. Regarding

the results obtained, the model achieved 78% accuracy in credit risk classification.

The key variables were family income, payment history, credit card usage, and

academic performance, demonstrating that Random Forest is a robust model for

predicting credit risk compared to traditional technologies. It can be used to

improve financial decision-making, reduce delinquency, and provide fairer and

safer financing policies for university students.

Keywords

Credit risk, machine learning, random forest, university

students, socioeconomic factors.

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1170)

http://www.aulavirtual.web.ve

Introducción

Uno de los productos financieros más

demandados en el sector bancario son los préstamos

personales y comerciales. De hecho, según Morales

& Espinosa (2023), en México los créditos

comerciales iniciaron su crecimiento desde

representar el 0.011 del PBI mexicano en la crisis

Subprime a 0.0317 del PBI en la pandemia de

COVID-19, resultando así un aumento del 188%;

por otro lado, los créditos de consumo el aumento

fue desde el 0.0073 del PBI en el periodo 2013-2019

y llegando a 0.0098 del PBI en la pandemia de

COVID-19 (Morales & Espinosa, 2023).

Esta tendencia alta de crecimiento no es

exclusiva del entorno latinoamericano; a nivel

global también se nota el alza, viéndose reflejado en

uno de los sectores sociales más importantes como

es la educación. Por ejemplo, en Estados Unidos, la

deuda federal por préstamos estudiantiles aumentó

de $229 mil millones de dólares en el año 2000 a

más de $1.04 billones de dólares en 2020,

convirtiéndolo así en el segundo tipo de deuda más

importantes de los hogares, solo después de las

hipotecas (Goldstein et al., 2023). Este estudio nos

revela no solo el incremento y dependencia del

crédito en múltiples ámbitos, sino también la

necesidad de implementar herramientas eficientes

de evaluación de riesgo crediticio que eviten

decisiones financieras no sostenibles y que generen

situaciones de impago.

En ese sentido han sido muchas las

tecnologías y estrategias planteadas para medir el

riesgo crediticio, dentro de los cuales recientes

estudios muestran que modelos de machine learning

han logrado resultados prometedores en la

predicción del riesgo crediticio universitario como

se muestra en el estudio de Thuy et al., (2025) sobre

un estudio de riesgo crediticio universitario en un

estudio de caso en vietnam:

“El modelo Random Forest logró una

precisión del 95,15%, superando a otros modelos

como Decision Tree (91,67%) y Logistic

Regression (88,64%), al predecir la solvencia

crediticia de los estudiantes universitarios

basándose en el conjunto de datos recopilados”

(Thuy et al., 2025).

Mediante los resultados obtenidos podemos

sostener que el modelo Rando Forest es superior a

comparación de otros modelos tradicionales en la

precisión de predicción de riesgo crediticio en

entornos universitarios, ratificando su importancia

como herramienta de análisis en contextos

similares.

Descripción y formulación del problema

Según estimaciones recientes, los prestatarios

que califican para pagos mensuales bajo el esquema

IDR (Income-Driven Repayment) son 18 puntos

porcentuales menos propensos a caer en mora y 2.4

puntos porcentuales menos propensos a entrar en

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1171)

http://www.aulavirtual.web.ve

default en su primer año, en comparación con

aquellos que deben pagar montos positivos

(Monarrez & Turner, 2024).

Esta situación no es exclusiva a los países más

desarrollados. En América latina y el Caribe un

estudio revela que las restricciones y poca

confiabilidad a crédito formal han incrementado el

crédito informal, como los préstamos entre

familiares y amigos. En 2021, el 52 % de la

población en la región había recurrido a esta

modalidad de crédito informal, superando

ampliamente al promedio mundial de 30%.

Desvelando una importante desconfianza en las

instituciones financieras, donde el 51% de los

adultos en la región mencionaron no confiar en el

sistema financiero, superando en un 13% al

promedio mundial (Herrero et al., 2025).

Esta alta dependencia de préstamos

informales y desconfianza generalizada en el

sistema financiero formal deja en evidencia las

barreras para la inclusión financiera en la región,

asimismo, refleja la ausencia de mecanismos para la

evaluación eficiente y objetiva del riesgo crediticio,

en especial en poblaciones que normalmente son

subatendidas por los bancos, como son los

estudiantes.

En el caso de Perú, la problemática de acceso

al crédito se ve reflejada en los bajos niveles de

inclusión financiera que enfrenta gran parte de la

población, especialmente los grupos más

vulnerables, entre los que se encuentran los jóvenes

estudiantes.

“El algoritmo Random Forest obtuvo una

precisión del 87% y un puntaje F1 de 0,88,

superando a otros modelos en la predicción de la

inclusión financiera entre los consumidores

peruanos según variables demográficas y

socioeconómicas” (Maehara et al., 2024).

Este estudio demuestra que el modelo de

Random Forest no solo tiene alto nivel de precisión

en contextos internacionales, sino que tiene una

precisión similar en el contexto peruano, lo que

justifica su uso para estudiar la situación de los

estudiantes de la Universidad Nacional Federico

Villarreal.

A pesar de los esfuerzos recientes en

Perú por impulsar la inclusión

financiera, persisten importantes

problemas de exclusión, especialmente

entre los grupos vulnerables [...] Según

el Banco Mundial (2023b), el país aún

está lejos de alcanzar los objetivos

programados, ya que solo el 57% de los

adultos en Perú tienen una cuenta

bancaria (Náñez Alonso et al., 2024).

En el contexto Local, la Universidad Nacional

Federico Villarreal (UNFV) está compuesta por una

comunidad estudiantil amplia, que integra jóvenes

provenientes de diversos entornos

socioeconómicos. Al igual que la población

nacional, enfrentan limitaciones para acceder a

productos financieros formales, incrementando la

probabilidad de optar por financiación informal o

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1172)

http://www.aulavirtual.web.ve

asumir obligaciones crediticias sin una previa

evaluación de riesgo. Este contexto hace pertinente

la implementación de herramientas tecnológicas

avanzadas, como el modelo Random Forest, para

predecir el riesgo crediticio y permitir identificar

efectivamente los estudiantes con menor o mayor

probabilidad de incumplimiento.

Así se tiene el desarrollo de diferentes

investigaciones que preceden a la actual. En la

Investigación de Golbayani et al., (2020), el objetivo

de investigación del primer objetivo en su artículo

es revisar la literatura, mientras que en su segundo

objetivo se emplearon cuatro algoritmos de

aprendizaje automático que son Árboles de

Decisión Agrupados (GDT), Bosque Aleatorio

(RF), Máquina de Vectores de Soporte (SVM) y

Perceptrón Multicapa. Para la metodología,

realizaron una validación cruzada de 10 pliegues

probando su rendimiento al introducir una nueva

métrica "Distancia de Notch ", que es básicamente

el error en la distancia entre las calificaciones reales

y las predichas.

Sus resultados muestran que los modelos de

árboles de decisión tienen un mayor poder

predictivo hasta niveles de precisión

impresionantes, y aunque el grado de error es

similar en alcance a las calificaciones emitidas por

las principales agencias de calificación, este estudio

no solo proporciona un cuerpo aún mayor de apoyo

empírico sobre la predicción de calificaciones

crediticias con métodos de aprendizaje automático,

sino que además demuestra que los árboles de

decisión son una alternativa práctica para priorizar

tareas como esta.

En el estudio de Wu (2022), señala que el

objetivo de este estudio es cuantificar qué tan bien

dos modelos de aprendizaje automático,

específicamente Random Forest y XGBoost,

predicen el incumplimiento de préstamos.

Realizaron ingeniería de características y un umbral

de varianza basado en la metodología, comprensión

de datos y eliminaron variables multicolineales

utilizando el VIF (Factor de Inflación de Varianza).

Las características fueron seleccionadas y utilizadas

para entrenar el modelo Random Forest y XGBoost.

Con respecto a los resultados, en general,

ambos modelos son capaces de discriminar los

incumplimientos de préstamos con bastante

precisión (con precisiones generales de

aproximadamente 0.9), y tienen un rendimiento

predictivo similar al menos considerando

estadísticas de primer orden de AUCs.

Este estudio demuestra nuevamente que

Random Forest y XGBoost tienen una mayor

capacidad para predecir la probabilidad de

incumplimiento de préstamos y que sus

rendimientos generalizados son iguales; por lo

tanto, pueden reemplazarse entre sí.

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1173)

http://www.aulavirtual.web.ve

En el estudio de Yang (2023), el propósito de

su investigación fue descubrir los factores que

implican riesgo de crédito personal en préstamos en

línea. La metodología propuso el uso de datos de

préstamos de bancos comerciales ya limitados y

filtrarlos con una calidad de preprocesamiento

excelente, donde entrenamos algoritmos de bosque

aleatorio (RF) y árbol de decisión, demostrando que

el modelo de bosque aleatorio tenía un 97% de

precisión en la predicción de este riesgo de

préstamo, lo cual es ciertamente alto, concluyendo

que el resultado de la investigación mostró que el

proceso de preprocesamiento de datos antes de

modelar juega un papel importante y el uso de un

bosque aleatorio como modelo base conduce a

mejores decisiones en la evaluación del riesgo de

crédito para los bancos comerciales.

En el estudio de Zhu et al., (2019),

implementan un modelo de predicción de

incumplimiento de préstamos con datos reales de

Lending Club, utilizando el algoritmo de bosque

aleatorio. Es crucial para todas las plataformas de

préstamos P2P: la predicción de incumplimiento de

préstamos, para ello se utilizó el sobremuestreo

SMOTE como paso de preprocesamiento para

obtener un conjunto de datos equilibrado a partir de

un desequilibrado.

Luego se realizaron muchos otros procesos,

incluyendo la limpieza de datos y la reducción de

dimensionalidad, para modificar el conjunto de

datos. Los resultados experimentales muestran que

la precisión de clasificación del algoritmo de bosque

aleatorio en la identificación de muestras de

incumplimiento mejora relativamente en

comparación con otros algoritmos de aprendizaje

automático (por ejemplo, regresión logística y árbol

de decisión).

Este estudio nos permite concluir que el

estudio de este vínculo tiene, de hecho, una gran

especificidad, y se pueden esperar altas precisiones

al utilizar el modelo de bosque aleatorio en futuras

predicciones de incumplimiento de préstamos.

Según Thuy et al., (2025), en su estudio

utilizaron modelos de aprendizaje automático y

aprendizaje profundo para predecir la solvencia

crediticia de los estudiantes universitarios

vietnamitas. El objetivo de este estudio es evaluar

técnicas de aprendizaje supervisado (Random

Forest, Máquinas de Aumento de Gradiente (GBM),

Máquina de Vectores de Soporte (SVM) y Red

Neuronal Profunda) para predecir la elegibilidad de

un cliente para un préstamo que cumpla con la

condición especificada.

La metodología utilizada para este propósito

es obtener los datos primarios a través de

cuestionarios de 1024 estudiantes universitarios

sobre académicos, finanzas y personalidad. Los

datos son directos con una generación de modelo y

evaluación basada en algunas métricas de

clasificación y regresión en los modelos. Random

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1174)

http://www.aulavirtual.web.ve

Forest: Para la clasificación RF, la mayor precisión

de clasificación se obtiene al entrenar con Red

Neuronal Profunda y se sitúa en 85.55%.

Random Forest obtuvo el mejor y segundo

mejor puntaje en todas las métricas, incluso en el

peor de los casos teniendo una precisión del 60%. El

estudio también proporciona ideas específicas para

que las instituciones financieras y las universidades

implementen su investigación en términos de

desarrollar herramientas de predicción de préstamos

estudiantiles en las universidades.

El Estudio de Madaan et al., (2021), condujo

a un modelo que simplemente mostró cómo los

banqueros podrían usarlo para lograr que acepten

nuevos solicitantes de préstamos y, por lo tanto,

reducir su tasa de incumplimiento y, como tal, el

riesgo en sus prácticas de préstamo. Para hacer esto,

realizaron cada ejecución del algoritmo en un

conjunto de datos (determinando cómo un nuevo

solicitante incumplirá) y utilizaron patrones de estos

resultados para su modelo. En la prueba de precisión

del análisis comparativo también fue posible

observar que el algoritmo de Bosque Aleatorio

superó al modelo base de Árbol de Decisión.

El Bosque Aleatorio como modelo tiene la

ventaja en la predicción de incumplimientos de

préstamos en comparación con otros modelos y esto

debería verse como la primera línea de defensa para

cualquier industria que planee reducir el riesgo

crediticio.

El estudio Kwamboka Mageto (2015), añadió

el modelo de bosques de supervivencia aleatorios

(RSF) como modelo de puntuación de crédito al

modelo de regresión de riesgos proporcionales de

Cox y lo comparó. La metodología experimental

sometió ambos modelos a una evaluación en una

fuente de datos diferente de un banco comercial en

Kenia, y finalmente se utilizó el índice C como

métrica para medir su poder predictivo. A partir de

los resultados de este análisis, se puede ver que,

aunque el nuevo modelo es capaz de un mejor

rendimiento que el modelo de Cox (predicción de

tasas), su tasa de error en la estimación del riesgo

crediticio fue mayor.

Este estudio mostró que el modelo de Cox fue

más preciso en predecir fallos que el modelo de

bosques de supervivencia aleatorios, y ambos

modelos señalaron el estado civil, el empleo, así

como la propiedad de la vivienda como variables

importantes en términos de medición del análisis de

riesgo, mientras que el género y la edad son

insignificantes.

En la investigación de Emma Howard et al.,

(2017), los autores evalúan el rendimiento de

diferentes modelos de predicción para construir un

sistema de alerta temprana en un curso de estadística

universitaria. El objetivo de este estudio es

encontrar la mejor manera de predecir y, en segundo

lugar, encontrar un momento adecuado en el

semestre para predecir con dicho sistema. Los

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1175)

http://www.aulavirtual.web.ve

métodos en este ensayo compararon ocho técnicas

predictivas con o sin subagrupación por clúster de

participación estudiantil para reducir el error de

predicción. Con respecto a los resultados, la

intervención en las semanas 5-6 tuvo el mayor

impacto en la asistencia (a principios de marzo, a

mitad del semestre).

En este caso, el método BART (Árboles de

Regresión Aditiva Bayesiana) con variables

detalladas y clústeres predijo que los estudiantes

obtendrían su calificación final con un error

absoluto promedio de 6.5 puntos hasta la semana 6.

Esta investigación, concluyo que, los resultados de

este trabajo indican que es posible predecir con

precisión el fracaso muy temprano en el curso y por

lo tanto, realizar intervenciones a tiempo.

En la investigación de Beaulac & Rosenthal

(2019), realizaron una predicción del rendimiento

académico de los estudiantes y su transición a la

carrera, con un conjunto de datos que fue extenso

para cualquier universidad (ubicada en Canadá). Se

buscó desarrollar dos clasificadores distintos: uno

para obtener el título (graduarse) y otro para no

cambiar de facultades (transmitir), solo observando

el rendimiento académico en los primeros

semestres.

Con respecto a la metodología se utilizó un

conjunto de datos total de más de 65.000 estudiantes

durante el período de los últimos 10 años, con un

modelo de Bosque Aleatorio implementado para

entrenar estos clasificadores. En los resultados, se

ha demostrado en pruebas anteriores que ambos son

clasificadores de alto rendimiento con una precisión

incluso mejor en comparación con el modelo lineal.

Concluyendo que el estudio respalda estos

tipos de clasificadores derivados de datos

académicos para la toma de decisiones

administrativas, lo que podría guiar en una mejor

asignación de recursos y en la identificación e

intervención temprana para la deserción estudiantil.

Finalmente, el análisis de la importancia de las

variables reveló patrones importantes como el

excepcional poder predictivo de las calificaciones

en departamentos con bajo rendimiento, lo que

podría hacernos sospechar sobre la inflación de

calificaciones.

En el estudio de Mestiri (2024), utilizó seis

técnicas de puntuación crediticia aplicando Análisis

Discriminante Lineal, Bosques Aleatorios y

Regresión Logística como modelos tradicionales;

Árboles de Decisión y Máquinas de Vectores de

Soporte como modelos no paramétricos; y Redes

Neuronales Profundas como modelo Atheor.

El objetivo principal era ver qué tan bien los

modelos de aprendizaje automático y aprendizaje

profundo predicen los incumplimientos de

préstamos. Derivo un modelo de predicción

utilizando un proceso metodológico a partir de 688

observaciones y doce variables de un estudio

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1176)

http://www.aulavirtual.web.ve

empírico, ejecutando 3 métricas en total, en orden

ascendente: precisión > puntuación F1 > AUC.

Los resultados indican que el aprendizaje

automático supera a los modelos estadísticos

tradicionales en la predicción correcta de

incumplimientos. El estudio concluye que el

aprendizaje automático es el método más apropiado

para la evaluación del riesgo crediticio y puede

desempeñar un papel significativo en la toma de

mejores decisiones financieras.

Pregunta general

¿En qué medida los factores

socioeconómicos, académicos y de comportamiento

financiero influyen en el nivel de riesgo crediticio

de los estudiantes universitarios peruanos,

utilizando el modelo Random Forest?

Objetivos

Determinar la influencia de los factores

socioeconómicos, académicos y de comportamiento

financiero en el riesgo crediticio de los estudiantes

universitarios peruanos, empleando el modelo

Random Forest.

Objetivos específicos

Identificar los factores socioeconómicos con

mayor incidencia en el riesgo crediticio de los

estudiantes universitarios peruanos.

Analizar la relación entre las variables

académicas y el nivel de riesgo crediticio en los

estudiantes universitarios peruanos.

Comparar la efectividad del modelo Random

Forest con los métodos tradicionales de evaluación

crediticia en la predicción del riesgo.

Justificación

Justificación social

La presente investigación tiene relevancia

social, ya que aborda una problemática que afecta

directamente a los estudiantes universitarios

peruanos: el acceso responsable al crédito y la

prevención del sobreendeudamiento. Comprender

los factores que inciden en el riesgo crediticio

permitirá diseñar políticas y estrategias que faciliten

un acceso más seguro a financiamiento educativo y

personal, contribuyendo a mejorar la estabilidad

financiera de los jóvenes y, en consecuencia, su

bienestar y desarrollo integral.

Justificación académica:

Desde el punto de vista académico, este

estudio aporta al campo de la investigación en

ciencias económicas y sociales mediante la

aplicación de técnicas de análisis cuantitativo

avanzadas, como el modelo Random Forest,

complementadas con herramientas de análisis de

causas y priorización como el diagrama de Pareto y

el diagrama de Ishikawa. La integración de estas

metodologías no solo fortalece la rigurosidad del

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1177)

http://www.aulavirtual.web.ve

análisis, sino que también ofrece un marco

metodológico replicable para futuras

investigaciones relacionadas con la predicción y

evaluación de riesgos en el contexto universitario.

Justificación tecnológica y práctica

En el ámbito tecnológico y práctico, la

investigación propone el uso de software

especializado para el análisis bibliométrico y la

identificación de tendencias de investigación, así

como herramientas de machine learning para la

predicción del riesgo crediticio. Estos recursos

fortalecen la capacidad de análisis de los

investigadores y promueven la adopción de

enfoques innovadores en la gestión de datos.

Asimismo, los resultados obtenidos podrán ser

utilizados por instituciones educativas y financieras

para optimizar sus procesos de evaluación

crediticia, mejorando la toma de decisiones y

minimizando el riesgo de morosidad.

Marco Teórico

Bases teóricas sobre el tema de investigación

La investigación se basa en un diseño teórico

sólido que incorpora conocimientos fundamentales

de finanzas y ciencias de la computación. Esta

sección se explica como un tratado en profundidad

de la lógica sobre la cual se construye la

investigación, y establece la base teórica para

comprender tanto sus objetivos, metodología y

resultados.

Identificación y mitigación del riesgo crediticio

El riesgo crediticio, que constituye una piedra

angular en el campo de la banca y las finanzas, se

conoce como la probabilidad de que un deudor no

cumpla con los requisitos de pago contractual

establecidos en el acuerdo, causando así un perjuicio

de capital al prestamista (Morales & Espinosa

2023). Tradicionalmente, este riesgo se ha evaluado

utilizando regresión logística y otros modelos

estadísticos, todos los cuales son muy efectivos,

pero que tienen algunas suposiciones sobre la

linealidad de las relaciones entre variables.

Estos modelos tradicionales, que utilizan

archivos de crédito formales y valores económicos,

no funcionaban para los perfiles de prestatarios que

se consideran "fuera de lo normal". Con este

método, para ciertos segmentos demográficos como

estudiantes universitarios u otros que nunca han

construido un historial crediticio completo y pueden

no tener ingresos estables, los prestamistas pueden

perder solicitantes que en realidad serían solventes.

En consecuencia, medir el riesgo crediticio es un

proceso no solo de modelado estadístico sino

también un problema de desigualdad financiera y

social (Náñez Alonso et al., 2024).

Cómo el aprendizaje automático interrumpe la

evaluación crediticia

El aprendizaje automático es un nuevo

modelo de evaluación del riesgo crediticio. A

diferencia de los modelos estadísticos que requieren

suposiciones a priori sobre la relación entre

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1178)

http://www.aulavirtual.web.ve

variables, los algoritmos de aprendizaje automático

pueden aprender inductivamente de los datos

detectando patrones complejos y no lineales incluso

difíciles de detectar para los humanos o modelos

lineales (Thuy et al., 2025; Wu, 2022).

El Modelo 3 permite un conjunto extenso de

variables, incluyendo datos de comportamiento en

línea como edad, sexo y rendimiento académico.

Esta investigación mostró que, además de aumentar

la precisión de la predicción, el aprendizaje

automático puede ofrecer una solución al problema

de la escasez de datos históricos que afecta a

poblaciones como los estudiantes, resultando en una

mayor equidad y cobertura de los modelos.

Modelo de Bosque Aleatorio: Una Estructura

Predictiva de Última Generación

El modelo de Bosque Aleatorio ha

demostrado ser un método de aprendizaje en

conjunto eficiente y efectivo para predecir

resultados con la capacidad de manejar datos

sesgados, por lo que la mayoría de los

establecimientos lo utilizan para cualquier forma de

análisis de datos. Este algoritmo crea muchos

árboles de decisión independientes diferentes, y

cada árbol se entrena en una parte aleatoria de los

datos y variables.

Para hacer una predicción sobre nuevos datos,

el modelo aprende la salida de cada árbol y luego los

toma como entradas para clasificar por "voto

mayoritario" o promediar la predicción final para

regresión. Tal arquitectura alivia significativamente

el problema de sobreajuste que podría tener un solo

árbol de decisión, y al mismo tiempo hace que el

modelo sea más robusto y generalizador. A la luz de

las numerosas variables, datos faltantes y ruido

involucrados en la predicción de riesgos crediticios

(Thuy et al., 2025), el Bosque Aleatorio emerge

como una herramienta casi perfecta para abordar un

trabajo tan desafiante.

Factores de riesgo crediticio relacionados con el

segmento estudiantil

Los estudiantes universitarios constituyen un

caso especial donde la evaluación del riesgo

crediticio va más allá del enfoque tradicional.

Además de los indicadores financieros básicos, este

trabajo trata con herramientas que son reconocidas

como una necesidad en este segmento por la

literatura especializada (Thuy et al., 2025). A través

de alguna aproximación, se puede modelar un juicio

de disciplina, compromiso y responsabilidad a partir

del rendimiento académico (GPA), que a su vez

también está correlacionado con un comportamiento

financiero responsable. El tipo de carrera, el estado

de empleo (tiempo completo, medio tiempo, etc.) y

las redes de apoyo social/familiar son los mismos

factores que también tienen un impacto directo en si

el estudiante puede pagar y su situación financiera

actual.

El objetivo de este artículo es construir un

sistema de puntuación crediticia más justo y

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1179)

http://www.aulavirtual.web.ve

sofisticado basado en las características de la

población estudiantil, con el fin de ayudar a las

instituciones financieras a controlar el riesgo de

incumplimiento mientras mantienen sus

oportunidades de inversión sobre este importante

segmento de población al incluir estas variables

cuidadosamente seleccionadas en un modelo de

Bosque Aleatorio.

Método

Tipo de investigación

La investigación es de enfoque cuantitativo,

ya que se basa en la recolección y análisis de datos

numéricos para identificar patrones y relaciones

entre las variables que influyen en el riesgo

crediticio de los estudiantes universitarios. Es de

tipo básica, pues busca generar conocimiento y

fundamentos teóricos sobre la aplicación de

algoritmos de machine learning (específicamente

Random Forest) en la predicción del riesgo

crediticio, sin un fin inmediato de intervención

directa en una institución financiera.

Diseño de investigación

Se emplea un diseño no experimental, de corte

transversal, debido a que la recolección de datos se

realizará en un único momento temporal y no habrá

manipulación de variables independientes, sino

observación y análisis de las condiciones existentes.

Ámbito temporal y espacial

El estudio se desarrolla durante el segundo

semestre académico del año en curso, con datos

recolectados en estudiantes de la Facultad de

Ingeniería Industrial y de Sistemas de la

Universidad Nacional Federico Villarreal y de

universidades peruanas que cuenten con programas

de crédito o financiamiento estudiantil.

Variables

1. Variable independiente: Factores

socioeconómicos, académicos y de

comportamiento financiero de los estudiantes.

2. Variable dependiente: Nivel de riesgo crediticio

(alto, medio, bajo), determinado mediante el

modelo Random Forest.

Población y muestra

1. Población: Estudiantes universitarios peruanos

de la Facultad de Ingeniería Industrial y de

Sistemas de la Universidad Nacional Federico

Villarreal que hayan accedido o solicitado un

crédito educativo o préstamo personal.

2. Muestra: Se selecciona una muestra

representativa mediante muestreo no

probabilístico por conveniencia, considerando la

disponibilidad de datos y la accesibilidad de los

estudiantes participantes.

Instrumentos

1. Cuestionario estructurado: para la recolección

de datos académicos, socioeconómicos y

financieros.

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1180)

http://www.aulavirtual.web.ve

2. Bases de datos: registros crediticios y

académicos de estudiantes (previa autorización).

3. Herramientas de análisis:

a. Diagrama de Pareto: para priorizar las

causas más significativas del riesgo

crediticio.

b. Diagrama de Ishikawa (INAH): para

identificar y clasificar las causas del riesgo

en categorías clave (Ingreso, Normativa,

Académico, Hábitos).

c. VOSviewer: para el análisis y visualización

de redes bibliométricas relacionadas con el

tema de investigación.

d. Software estadístico y de machine learning:

Python, R y librerías especializadas para la

implementación del modelo Random Forest.

Procedimientos

Revisión bibliográfica y construcción del marco

teórico con VOSviewer

La revisión sistemática y metodológica de la

literatura y la operacionalización del marco teórico

se desarrollaron sobre la base de la planificación con

VOSviewer, que también apoyó el análisis y los

gráficos de las redes bibliométricas. Esto permitió

evitar quedar atrapados en una revisión narrativa

tradicional y luego posibilitó investigar conexiones,

similitudes y la estructura de la literatura académica

en lo que respecta a la evaluación del riesgo

crediticio (Ver Figura 1). Este enfoque incluyó

cuatro pasos:

1. Fuentes de datos: Los metadatos bibliográficos

incluyeron títulos, resúmenes, palabras clave,

autores, afiliaciones de autores y citas en bases

de datos académicas y científicas (Web of

Science, Scopus). Se incluyeron aquellos

identificados a través de una estrategia de

búsqueda que utilizó gestión de riesgos,

comportamiento financiero estudiantil,

aprendizaje automático y modelos de

predicción.

2. Análisis Bibliométrico utilizando VOSviewer:

Los datos importados se utilizaron en

VOSviewer, una herramienta de mapeo

bibliométrico. El análisis incluyó los siguientes

subconjuntos de análisis:

3. Análisis de Co-ocurrencia de Palabras Clave: Se

emplearon mapas de red para mostrar la relación

entre las palabras clave relevantes. Finalmente,

esto permitió identificar los campos más

predominantes, los en desarrollo y los

subcampos en la literatura.

4. Análisis de Co-citación: Se generaron mapas de

co-citación para autores y documentos,

revelando la estructura del conocimiento, así

como la influencia de los trabajos seminales en

las tres áreas. Se crearon corrientes de

pensamiento o tradiciones de investigación

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1181)

http://www.aulavirtual.web.ve

basadas en comunidades de documentos o

autores co-citados.

Establecimiento del Marco Teórico

Los hallazgos del análisis se utilizaron para

organizar el marco teórico. Temáticamente, las

redes de visualización hicieron posible identificar

las principales teorías y variables discutidas en la

literatura, en términos académicos,

socioeconómicos y de comportamiento. Estos ejes

temáticos sirvieron como base de la

contextualización teórica, que se alineó

teóricamente con el modelo de predicción y la

interpretación de los resultados. Este proceso

garantizó que el modelo estuviera basado en la

evidencia empírica más actual y apropiada.

Figura 1. Red de Co-ocurrencia de términos

Elaborado con Vosviewer

Diseño y validación del cuestionario

Según López Torres et al., (2024), la

validación del cuestionario es crucial para los

autores de esta investigación, ya que garantiza la

precisión y consistencia de las medidas que emplean

para recopilar datos de los participantes. La validez

de las medidas comparadas tiene importantes

implicaciones para la calidad y validez de los

resultados y conclusiones basadas en los resultados

empíricos de la investigación del meta-análisis. Esto

es crucial para desarrollar relaciones significativas

entre las variables examinadas, el materialismo, el

endeudamiento, y sacar conclusiones sólidas que

puedan ser útiles en significancia académica y

práctica.

Para esta investigación el cuestionario se

estructuró como una de las fuentes principales de

recogida de datos y tenía que ser coherente, válido,

objetivo y pragmático para construir un modelo

predictivo. El diseño y el proceso fueron guiados

por una revisión de literatura que consistía en la

literatura especializada en artículos científicos sobre

comportamiento financiero, que establecía

condiciones para la identificación de factores

relacionados con el riesgo crediticio.

Los temas en la aplicación, para ayudar con el

flujo de trabajo y aumentar la posibilidad de que

estas no fueran consultas perdidas, fueron (Ver

Figura 2):

1. Demografía: Edad, género, clase social.

2. Información Académica: CWA (Promedio

Ponderado Acumulativo), semestre y tipo de

universidad.

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1182)

http://www.aulavirtual.web.ve

3. Comportamientos Financieros y de Crédito: Si

tengo tarjeta de crédito; número de créditos

existentes; si he pagado tarde antes.

4. Dinero: Empleo actual y estado laboral, y carga

de deuda.

Figura. 2: Estructura del Datset

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1183)

http://www.aulavirtual.web.ve

La validación del cuestionario fue realizada

mediante la técnica de juicio de expertos. El

propósito de esta validación era confirmar que las

preguntas eran relevantes, que los ítems eran claros,

y que el rango de variables en cada factor era

adecuado para el análisis. Se emplearon las

recomendaciones de expertos para abordar esto.

Por cierto, esto fue probado con algunos

estudiantes. Los beneficios de estas pruebas fueron

corregir malentendidos en la formulación y hacerla

clara para que los datos obtenidos puedan emplearse

a gran escala. Esta conversación sirvió como una

oportunidad para tener una herramienta de

recopilación de datos procesada y robusta para

entrenar nuestro modelo.

Recolección de datos a través de encuestas y bases

de datos institucionales.

Los datos se recopilaron para generar un

modelo predictivo y demostrar su precisión. Esta

ruta metodológica se basó en dos fuentes principales

con el objetivo de obtener información

representativa y confiable.

Las encuestas jugaron un papel importante ya

que recopilamos datos sobre los comportamientos

financieros, atributos sociales y académicos de los

estudiantes mediante una encuesta administrativa

estandarizada. Estos cuestionarios se utilizaron

como referencia para la comparación de variables

adicionales, incluidas el empleo, el promedio de

calificaciones, la fuente de financiación y el uso de

tarjetas de crédito. Para el análisis de riesgo

crediticio, pudimos adquirir información directa y

útil a partir de estas encuestas.

Las bases de datos institucionales no eran

accesibles y la información obtenida a través de

ellas fue desidentificada. Estas bases de datos

contienen detalles sobre el rendimiento universitario

de los estudiantes y sus ingresos y son indiscutibles.

Se incluyó un historial de pagos, montos pendientes

y crédito actual en la lista para calificar los datos de

las bases de datos, que son las variables más

significativas para determinar el riesgo crediticio.

En los países en desarrollo, la mayoría de los

datos de la encuesta y las bases de datos

administrativas son sólidos, ricos y suficientes para

ajustar el modelo de Random Forest, que toma

dichos elementos en cuenta para hacer predicciones.

Una ventaja adicional fue incluir estas diversas

fuentes de datos, lo que añadió fortaleza al análisis

y las conclusiones.

Procesamiento y depuración de datos

El preprocesamiento y la limpieza de datos

son pasos importantes para lograr la confiabilidad y

la validez de los resultados del modelo de

aprendizaje automático. Este paso fue diseñado para

procesar los datos sin procesar para que sean aptos

para el análisis, para rectificar inconsistencias y

también para preparar los datos para su uso en el

modelo de Ramdom Forest. El procedimiento se

construyó con los siguientes pasos:

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1184)

http://www.aulavirtual.web.ve

1. Carga de los datos: Los datos, que se llaman

dataset.co-in.csv, se importaron a un entorno de

trabajo de Python con el uso de Pandas. Este

primer paso permitió la manipulación y análisis

del conjunto de datos en la estructura de

DataFrame.

2. Tratamiento de datos faltantes (NaN): Como se

observó, aparentemente hay algunas filas que

tienen datos faltantes en algunas de sus

columnas. Para abordar esto, utilizamos el

método de imputación de la media, que

completó los valores faltantes en los puntos de

datos con la media de esa columna. Para no

perder observaciones, se utilizó dicha técnica de

muestreo para evitar una pérdida en el tamaño

del conjunto de datos.

3. Codificación de características categóricas: Los

algoritmos de aprendizaje automático necesitan

que los datos se proporcionen como números.

Por lo tanto, las variables categóricas nominales

(género, fuente de ingresos, estado ocupacional

y tipo de universidad) se convirtieron en formas

numéricas invocando la codificación One-Hot.

Este método introduce columnas binarias

adicionales para cada categoría, sin ninguna

suposición jerárquica sobre las variables.

4. La variable objetivo: El objetivo

"riesgo_crediticio", la variable dependiente del

modelo, se mapeó luego de sus etiquetas

textuales originales (es decir: bajo, medio, alto)

a sus correspondientes datos numéricos (es

decir: 0, 1, 2). Este paso es esencial para que los

algoritmos de clasificación funcionen

correctamente.

Estos procedimientos de preprocesamiento y

limpieza eran necesarios para garantizar que el

modelo de Bosque Aleatorio funcione con una

muestra ordenada y homogénea representativa de

las observaciones, y son vitales para que los

resultados sean válidos y confiables.

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1185)

http://www.aulavirtual.web.ve

Análisis preliminar mediante diagramas de Pareto e Ishikawa para identificar factores clave

Figura 3. Diagrama de Pareto

El Diagrama de Pareto es una representación

visual inspirada en el principio de Pareto o la "regla

del 80/20". El concepto central es que la gran

mayoría de los efectos provienen de la minoría de

las causas. En estas circunstancias, el gráfico se

puede usar para responder la siguiente pregunta:

¿Cuáles son el número mínimo de causas que dan

lugar a la mayor parte del riesgo crediticio?

1. Barras (Eje Y izquierdo): Cada barra representa

una causa, la longitud muestra la frecuencia de

la ocurrencia en casos de riesgo medio o alto.

Cuanto más alta es la barra, más plausible es la

causa.

2. Línea (Eje Y derecho): La línea roja nos indica

el porcentaje acumulativo de la frecuencia.

Observando el gráfico, a medida que avanzas de

izquierda a derecha, puedes mostrar cuánto

porcentaje del riesgo total está cubierto por las

causas iniciales.

El punto en el que la línea roja cruza la línea

horizontal del 80% indica qué factores necesitas

abordar efectivamente para tener un mayor impacto

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1186)

http://www.aulavirtual.web.ve

en la reducción del riesgo. Si las tres primeras barras

juntas representan el 80% del riesgo acumulado,

significa que deberías concentrarte en estas tres

causas.

Figura 4. Diagrama de Ishikawa

Los principales contribuyentes al riesgo

crediticio para los estudiantes en este gráfico:

1. Ingresos:

a. La mayoría de los estudiantes — 806 de

ellos — dependen de la familia (368) o de

becas (254), y pocos tienen empleos propios

(175).

b. La mayoría trabaja a tiempo parcial (409) o

está desempleada (345), lo que da lugar a

una inestabilidad financiera.

c. El monto promedio de deuda (584,67) y el

ratio de deuda (4,5) están entre los más bajos

representados.

2. Regulaciones:

a. Solo el 36% tiene una tarjeta de crédito (un

promedio de 0,36).

b. La pequeña cantidad de préstamos activos

(en promedio 0,73) es justo suficiente para

considerarlo de alto riesgo.

3. Académico:

a. El promedio de la calificación ponderada

(14,01) y el ciclo (4,88) muestra que son

estudiantes de nivel medio, aunque todavía

no están en un entorno profesional.

b. Los miembros de universidades públicas

(583) supera en número al de universidades

privados (317), probablemente porque la

mayoría tiene menos recursos financieros de

un año a otro.

4. Hábitos:

a. La historia de presentaciones anteriores

(2,02) indica varios incumplimientos.

b. El uso promedio de la tarjeta de crédito en

términos de ingresos disponibles y deuda

pendiente es alto (19,94).

Entrenamiento y validación del modelo Random

Forest

Según Rao et al., (2020), Ramdom Forest,

explican en su artículo, que es una técnica de

aprendizaje automático que utiliza un conjunto de

árboles de decisión para mejorar el rendimiento en

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1187)

http://www.aulavirtual.web.ve

tareas de clasificación o regresión. En particular, se

centra en su idoneidad para datos complejos y no

lineales y cómo funciona en tareas de clasificación

con diferentes números de clases.

El entrenamiento del modelo siguió el

enfoque de aprendizaje supervisado al entrenarse

con un conjunto de datos etiquetados para predecir

la variable dependiente del riesgo de crédito. El

Random Forest es un método de ensamblaje que

funciona al hacer crecer varios árboles de decisión

en la fase de entrenamiento. Estos árboles se

construyen al azar, lo que agrega una diversidad

que, por supuesto, hace que el modelo sea robusto y

se generalice bien.

El entrenamiento se realizó de la siguiente

manera:

Ensamblado:

En el ensamblado, las muestras utilizadas para

entrenar cada árbol se extrajeron con reemplazo

(bootstrap) del conjunto de entrenamiento original.

Esta es otra forma de decir que algunas filas pueden

ser elegidas más de una vez o no ser elegidas en

absoluto por un árbol específico.

Variables aleatorias:

Solo un subconjunto aleatorio de las diversas

variables predictivas ha sido considerado usando

todos los nodos de todos los árboles. Esto evita que

una sola variable muy predictiva conduzca la

mayoría de las divisiones del árbol e incluso reduce

la correlación entre árboles.

Construcción de árboles:

Cada árbol individual fue construido usando

el mismo enfoque, permitiéndoles crecer hasta su

máxima profundidad sin poda. Esto garantiza una

pequeña varianza en los árboles individuales.

Votación mayoritaria:

Después de la predicción final se adoptó una

votación mayoritaria para obtener el resultado

predicho de un árbol. En esta clasificación, la clase

que recibió más votos fue registrada como el

resultado final. Este post-proceso de resumen de

resultados no solo puede evitar el sobreajuste, sino

también proporcionar una predicción más robusta y

precisa.

Con respecto a la validación se realizó de la

siguiente manera:

Pruebas de entrenamiento y de prueba:

Este procedimiento se aplicó cinco veces,

utilizando en cada ronda un pliegue diferente

(conjunto de prueba), y los pliegues restantes

(conjunto de entrenamiento). Para todo el

procedimiento, se realizaron un total de 25 pruebas.

Métricas:

Para cada conjunto resultante después de la

homogenización, el rendimiento se midió por

precisión, exactitud, recuperación y puntaje F1.

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1188)

http://www.aulavirtual.web.ve

Estimación del rendimiento final:

El rendimiento del modelo se determinó en

base a 5 ejecuciones previas. Esto ayuda a reducir la

varianza al disminuir la dependencia de una

partición aleatoria específica, permitiendo a los

usuarios tener más confianza en que la predicción

del modelo se basa en datos nuevos, no utilizados

durante el entrenamiento.

Su precisión en la validación cruzada es del 78

%. Indica que las capacidades predictivas y de

generalización del modelo son aceptables para la

predicción del riesgo crediticio.

Interpretación de resultados y elaboración de

conclusiones

El modelo de Random Forest proporciona un

rendimiento del 78% de manera confiable y

consistente. Estos hallazgos también implican que

nuestro modelo es, de hecho, un notable generador

de riesgo crediticio general, no solo mejor que

cualquier otro, si no que demuestra validación como

herramienta de predicción.

Los significados de estas medidas se

describen a continuación:

1. Esto significa que en el 78% de todos los casos

de prueba, el modelo clasifica correctamente el

ejemplo. Esta es la proporción de predicciones

correctas (casos altos o bajos) sobre el total de

predicciones. Este es un indicador aceptado

mundialmente para validar el poder

discriminante del modelo general entre dos

posibles clases de riesgo.

2. Si obtuviéramos una precisión del 99%,

estaríamos en un 21% por debajo, lo que

realmente caería en la categoría de un modelo

sobre ajustado. El 78% nos indica que el

algoritmo aprendió a manipular la estructura

interna de los datos, en preferencia a los datos

brutos, y debería rendir bastante bien frente a

datos no vistos.

3. El 78% de precisión nos indica que cuán

confiables son las predicciones positivas del

modelo. En otras palabras, acertamos el 78% de

las veces cuando los casos se clasifican como

riesgosos (ya sea de riesgo medio o alto). Esto

es de gran utilidad para la gestión del riesgo, ya

que queremos tener una alta precisión y no tener

tantos falsos positivos.

4. Cuando el modelo afirma incorrectamente que

alguien es un riesgo crediticio y no lo es, esto se

conoce como falso positivo. Con un 78% de

precisión, la ocurrencia de estos errores se

reduce tanto, que es menos probable que una

solicitud de crédito sea denegada sin razón, y se

toma una mejor decisión.

El modelo predictivo es también altamente

aplicable debido a su precisión que alcanza el 78%

y su exactitud. Si bien esto no es excelente, el

modelo realmente funciona y puede detectar

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1189)

http://www.aulavirtual.web.ve

patrones fundamentalmente importantes alrededor

del riesgo crediticio que pueden ser bien

reproducidos por un modelo.

Esto demuestra que la metodología de

aprendizaje automático es aplicable y sugiere

extender el modelo a un sistema de apoyo de

decisiones capaz de facilitar una toma de decisiones

rápida y ágil para los riesgos. Las diferencias

caracterizadas por diferencias en puntuaciones F1 y

tasas de recuperación (que podrían diferir entre

clases) son áreas donde el modelo podría ser

ajustado en futuras referencias para un rendimiento

mejorado y maximizado del modelo por clase de

riesgo.

El análisis de estas métricas nos dará una

comprensión de qué tan bien ha estado funcionando

el modelo y dónde se puede explorar a continuación

para mejorar el modelo en la predicción de los datos.

Es este tipo de investigación profunda la que se

requiere para implementar y usar modelos

predictivos en finanzas. No está mal, significa que

hay cierto potencial para que el modelo sea una

herramienta predictiva útil si no perfecta (~50% de

tasa de verdaderos positivos).

Se muestra claramente que el modelo es capaz

de predecir los principales patrones de morosidad,

aunque no con la precisión que se logra con

confiabilidad en el caso más extremo. Esto cumple

con la prueba y confirma el enfoque de aprendizaje

automático seleccionado para que el modelo pueda

integrarse en un sistema de apoyo de decisiones para

una evaluación inicial del riesgo.

Cabe resaltar, que, aparecerá en la mejora a

partir de la puntuación F1 y el recuerdo (que están

sujetos a cambios de un grupo a otro) y se puede

investigar más a fondo para optimizar mejor el

modelo para más grupos.

Figura 5. Resultados del modelo optimizado

Elaborado con herramienta Python

Análisis de datos

La información recopilada fue analizada de

acuerdo a estadísticas descriptivas e inferenciales

para describir las variables del estudio y se probaron

cuatro hipótesis. Para la evaluación de Rendimiento

de Aprendizaje Automático, se utilizaron medidas

estándar de rendimiento de aprendizaje automático

para evaluar la capacidad predictiva del modelo de

Ramdom Forest.

Se usaron las tasas de muestreo, anotación y

error, así como las siguientes medidas de

rendimiento para el modelo:

1. Precisión: La fracción de predicciones

verdaderamente positivas entre el total de

predicciones positivas.

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1190)

http://www.aulavirtual.web.ve

2. Recuperación (Recall): La proporción de lo que

el modelo detectó como positivo entre todas las

instancias realmente positivas.

3. Puntuación F1: El punto medio dorado entre

precisión y recuperación.

4. Matriz de Confusión: Una tabla que muestra

cuántas de las categorías reales/predichas fueron

clasificadas correctamente o no (Ver Figura 6).

Figura 6. Matriz de Confusión

Elaborado con herramienta Python

Además, se han implementado técnicas de

análisis visual como el Diagrama de Pareto y el

Diagrama de Ishikawa. El Diagrama de Pareto se

utilizó para clasificar profesionalmente las causas

contribuyentes al riesgo de crédito según la regla

80/20. Mientras tanto, el Diagrama de Ishikawa fue

esencial para la clasificación y organización de las

causas del riesgo en categorías predefinidas

(Ingresos, Política, Académico y Hábitos).

Figura 7. Curvas ROC por clase

Para evaluar la capacidad de discriminación

del modelo Random Forest se calculó el área bajo la

curva ROC (AUC) para cada clase de la variable

objetivo (Ver Figura 7). Los resultados obtenidos

fueron (Ver Tabla 1):

Clase

AUC

Bajo

0.93

Medio

0.87

Alto

0.99

Tabla 1. Curva ROC (AUC)

La clase “Alto” presenta el mayor valor de

AUC (0.99), lo que indica que el modelo distingue

con gran precisión a los clientes de alto riesgo. En

la clase “Bajo” el AUC alcanza 0.93, lo que muestra

una buena separación respecto a las demás clases.

La clase “Medio” obtuvo el menor AUC

(0.87), esto nos dice que las características de este

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1191)

http://www.aulavirtual.web.ve

grupo se superponen con las otras categorías,

dificultando su identificación. En suma, los valores

de AUC demuestran que el modelo posee una

elevada capacidad de discriminación.

Integrar esas herramientas fue un aporte clave

para la interpretación y validación de los resultados

del modelo y creó un método de comprensión de los

mayores contribuyentes a las predicciones

realizadas por el modelo de Random Forest.

Discusión

La discusión de los resultados debería

centrarse en cómo se alcanzaron estos resultados,

basándose en el contexto (empírico y/o teórico). Al

comparar nuestros resultados con trabajos previos,

tanto como sea posible, intentamos generalizar y

detectar algunos nuevos patrones, o dar nueva vida

a algunos entendimientos e hipótesis actuales.

Golbayani et al., (2020), en su investigación,

enfatizan la importancia de las redes neuronales, las

máquinas de vectores soporte y los árboles de

decisión al comparar los diversos métodos con la

aplicación de modelos de inteligencia artificial. El

objetivo de este estudio es encontrar el modelo más

efectivo para manejar la complejidad y diversidad

de los datos financieros. Este enfoque alternativo

permitirá a este estudio y a otros investigadores o

profesionales financieros a tener una comprensión

más clara de lo que los modelos son capaces de

hacer o no, y cuándo sería más apropiado aplicar

uno u otro de estos modelos para satisfacer mejor las

necesidades crediticias del mercado de crédito.

Sin embargo, la aplicación de Random Forest

ofrece una nueva perspectiva al analizar el

rendimiento de un modelo real en términos de

solvencia crediticia universitaria. Esta

recomendación particular de método implica que el

modelo no solo compite con otros modelos, sino que

también está diseñado para adaptarse a una

estructura determinada, y el resultado que aporta

contribuye a la mejora de la toma de decisiones de

riesgo en la educación superior.

Aunque adoptan diferentes enfoques, ambos

demuestran la relevancia de los modelos basados en

IA para la predicción de crédito, revelando que un

enfoque centra y otro comparativo tienen un valor

significativo, ninguno siendo mejor que el otro, pero

respetando plenamente la complejidad y el campo

de aplicación. Esta discusión es la justificación para

adoptar el enfoque específico pero comparativo para

garantizar el rendimiento óptimo de los modelos que

predicen la calificación crediticia.

En el estudio de Wu (2022), se aplican tanto

Random Forest y XGBoost con una predicción

aproximada del 0.9. Los resultados refuerzan la

importancia de abordar la selección de

características (con un umbral de varianza

adecuado) y la multicolinealidad, validada en este

estudio mediante el uso del Factor de Inflación de

Varianza para eliminar las características que no

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1192)

http://www.aulavirtual.web.ve

contribuyen al modelo. Las estimaciones de estos

modelos se utilizan para afirmar que son isomorfos,

de modo que una empresa financiera es libre de

elegir uno de ellos, o ambos, sin perder poder

predictivo en los incumplimientos y a la hipótesis de

mejoras en la gestión del riesgo crediticio.

Por otro lado, sobre la base del modelo de

Random Forest generado para prever el riesgo

crediticio de los estudiantes universitarios, se

prueba la efectividad del modelo correspondiente

para evitar que los estudiantes caigan en la trampa

de la pobreza, lo que indica que quien implemente

ese modelo puede lograr la estabilidad financiera

estudiantil.

Las dos investigaciones podrían tratar sobre

temas diferentes, mientras que ambos nos recuerdan

el hecho de que el algoritmo de Random Forest es

un modelo de predicción poderoso y general por sí

mismo, similar a XGBoost, o, por otro lado, el poder

y la generalización de los métodos de aprendizaje

automático en el crédito.

Los resultados obtenidos en la presente

investigación comunes sostienen la relevancia del

dominio de aplicación al elegir modelos para la

evaluación del riesgo crediticio e indican que la

decisión entre modelos depende significativamente

del contexto, más que solo del rendimiento

predictivo de los modelos.

Según Yang (2023), al construir el modelo

predictivo para préstamos personales, se observó

que el Random Forest es muy útil para desarrollar

un modelo predictivo de riesgo crediticio, ya que su

precisión fue del 97 por ciento. Este resultado

también subraya la eficacia del Random Forest para

separar bien a los deudores y para predecir la

probabilidad de incumplimiento. Comparado con

otros modelos, el rendimiento de predicción del

modelo de Random Forest es bueno, o incluso

superior, lo que indica que este modelo es más

apropiado para la detección de riesgos de productos

de crédito.

Del mismo modo, con respecto a los

estudiantes universitarios, la investigación que

utiliza el modelo de Random Forest también resalta

las cualidades predictivas del modelo, aunque para

una muestra diferente. A nivel estudiantil, al utilizar

datos específicos de los estudiantes, este análisis

permite identificar de manera efectiva a aquellos

con mayor probabilidad de incumplir con sus

obligaciones crediticias.

A pesar de que el estudio de Yang (2023) se

basa en préstamos personales a corto plazo con un

rendimiento excepcionalmente alto, el rendimiento

para el riesgo crediticio estudiantil se contrasta para

ilustrar la adaptabilidad y versatilidad del Random

Forest. Este conocimiento confirma aún más el éxito

universal de Random Forest en el ámbito del

crédito, es decir, el poder del algoritmo radica no

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1193)

http://www.aulavirtual.web.ve

solo en su éxito predictivo, sino también en su

capacidad para adaptarse al conjunto de datos en

cuestión.

Thuy et al., (2025) en este trabajo, emplean

nuevos algoritmos de vanguardia que proporcionan

una evaluación crediticia de los saldos de reembolso

de préstamos y una solución más orientada a la

distribución. Esos algoritmos también se prueban y

se comparan entre sí hasta que las predicciones de

aprendizaje profundo son fiables.

Este hallazgo subraya que el tema del análisis

crediticio: a medida que la tecnología continúa

avanzando, se han empleado modelos avanzados

para ayudar a las partes interesadas a formar una

imagen sólida y completa de las dinámicas

subyacentes que influyen en la solvencia crediticia

estudiantil. Además, el uso de Random Forest en el

riesgo crediticio en estudiantes universitarios, como

parte de la investigación empírica, también

proporciona una nueva idea en este campo. Este

estudio también sugirió que estos modelos de

Random Forest pueden predecir el incumplimiento

lo que demuestra que existen variedad de enfoques

con niveles competitivos de rendimiento.

Las lecciones que aprendemos de los dos

resultados son: uno necesita tener un equilibrio entre

el rendimiento de un modelo, su capacidad de

generalización e interpretabilidad cuando se elige

un modelo para ciertos problemas de evaluación de

riesgo crediticio. Así, el enfoque para la evaluación

del riesgo crediticio es seleccionable según la

necesidad en el campo y para el sujeto.

Conclusiones

Luego de finalizar la investigación sobre la

Evaluación del modelo Random Forest como

herramienta de predicción del riesgo crediticio en

estudiantes universitarios, se llegaron a las

siguientes conclusiones:

1. El análisis permitió identificar y seleccionar

factores significativos a nivel estudiantil que

influyen en el nivel de riesgo crediticio de los

estudiantes universitarios. No solo mejora el

rendimiento de pronóstico del modelo, sino que

también proporciona una referencia valiosa para

la investigación del factor clave de la capacidad

de pago de este grupo.

2. Se entrenó y validó un modelo de Random

Forest, y mostró buena precisión en la

predicción de incumplimientos crediticios. Los

hallazgos implican que este modelo podría ser

una mejor opción para predecir la evaluación del

riesgo crediticio de estudiantes, superando a

otros modelos tradicionales en términos de

rendimiento.

3. Las implicaciones reales generadas por los

resultados de este estudio hacen que las

entidades financieras empleen el modelo de

Random Forest al otorgar un préstamo. Esto no

solo reduciría las restricciones de riesgo en la

gestión de riesgos, sino que también una mejor

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1194)

http://www.aulavirtual.web.ve

percepción y conciencia financiera entre los

estudiantes, a su vez, les haría tomar mejores

decisiones en el ámbito crediticio.

Recomendaciones

A partir de las conclusiones obtenidas en esta

investigación, se proponen las siguientes

recomendaciones:

1. Se sugiere a los bancos a utilizar el modelo de

Random Forest como una herramienta auxiliar

para la evaluación del riesgo crediticio para

estudiantes universitarios y debe ser

implementado y probado donde el modelo se

desempeñe mejor que el clásico.

2. Las universidades deben trabajar con bancos y

cajas de ahorro para ofrecer programas de

gestión del dinero, de modo que los estudiantes

desarrollen una comprensión de lo que significa

el crédito. En este sentido, pueden entender los

factores que pueden influir en la capacidad de

pago.

3. También se recomienda realizar la investigación

para incluir nuevas variables de tipo

socioeconómico, académico y conductual,

validando el modelo en otras universidades y

regiones. Esto permitirá probar su estabilidad,

generalización y aplicabilidad con una mayor

proporción de la población estudiantil.

Referencias

Beaulac, C., & Rosenthal, J. S. (2019). Predicting

University Students’ Academic Success and

Major Using Random Forests. Research in

Higher Education, 60(7), 1048–1064.

Documento en línea. Disponible

https://doi.org/10.1007/s11162-019-09546-y

Emma Howard, M. M. & Parnell, A. (2017).

Contrasting Prediction Methods for Early

Warning Systems at Undergraduate Leve. ArXiv

[Math.HO], 2, 1–20.

Golbayani, P., Florescu, I., & Chatterjee, R. (2020).

A comparative study of forecasting corporate

credit ratings using neural networks, support

vector machines, and decision trees. The North

American Journal of Economics and Finance,

54, 101251. Documento en línea. Disponible

https://doi.org/10.1016/j.najef.2020.101251

Goldstein, A., Eaton, C., Villalobos, A.,

Chakrabarti, P., Cohen, J., & Donnelly, K.

(2023). Administrative Burden in Federal

Student Loan Repayment, and Socially Stratified

Access to Income-Driven Repayment Plans.

RSF, 9(4), 86–111. Documento en línea.

Disponible

https://doi.org/10.7758/RSF.2023.9.4.04

Herrero, S., Rubio, J., & León, M. (2025). Loans to

Family and Friends and the Formal Financial

System in Latin America. International Journal

of Financial Studies, 13(3), 116. Documento en

línea. Disponible

https://doi.org/10.3390/ijfs13030116

Kwamboka Mageto, D. (2015). Modelling of Credit

Risk: Random Forests versus Cox Proportional

Hazard Regression. American Journal of

Theoretical and Applied Statistics, 4(4), 247.

Documento en línea. Disponible

https://doi.org/10.11648/j.ajtas.20150404.13

López Torres, V. G., Valenzuela Montoya, M. M.,

& Lizarraga Benítez, R. I. (2024). Educación

financiera, materialismo y valor del dinero: su

efecto en el endeudamiento de estudiantes

ISSN: 2665-0398

Revista Aula Virtual, ISSN: 2665-0398; Periodicidad: Continua

Volumen: 7, Número: 14, Año: 2026 (Enero 2026 - Junio 2026)

Esta obra está bajo una Licencia Creative Commons Atribución No Comercial-Sin Derivar 4.0 Internacional

1(1195)

http://www.aulavirtual.web.ve

universitarios. RIDE Revista Iberoamericana

Para La Investigación y El Desarrollo

Educativo, 15(29). Documento en línea.

Disponible

https://doi.org/10.23913/ride.v15i29.2015

Madaan, M., Kumar, A., Keshri, C., Jain, R., &

Nagrath, P. (2021). Loan default prediction using

decision trees and random forest: A comparative

study. IOP Conference Series: Materials Science

and Engineering, 1022(1), 012042. Documento

en línea. Disponible

https://doi.org/10.1088/1757-

899X/1022/1/012042

Maehara, R., Benites, L., Talavera, A., Aybar-

Flores, A., & Muñoz, M. (2024). Predicting

Financial Inclusion in Peru: Application of

Machine Learning Algorithms. Journal of Risk

and Financial Management, 17(1). Documento

en línea. Disponible

https://doi.org/10.3390/jrfm17010034

Mestiri, S. (2024). Credit scoring using machine

learning and deep Learning-Based models. Data

Science in Finance and Economics, 4(2), 236–

248. Documento en línea. Disponible

https://doi.org/10.3934/DSFE.2024009

Monarrez, T., & Turner, L. (2024). The Effect of

Student Loan Payment Burdens on Borrower

Outcomes (Working Paper (Federal Reserve

Bank of Philadelphia)). Federal Reserve Bank of

Philadelphia. Documento en línea. Disponible

https://doi.org/10.21799/frbp.wp.2024.08

Morales Castro, J. A., & Espinosa Jiménez, P. M.

(2023). Factors influencing the supply of bank

loans in Mexico: an analysis in the context of the

2000 to 2021 crises. Revista Academia and

Negocios, 9(1), 79–94. Documento en línea.

Disponible https://doi.org/10.29393/RAN9-

7FIJP20007

Náñez Alonso, S., Jorge-Vazquez, J., Arias, L., &

del Nogal, N. (2024). What Factors Are Limiting

Financial Inclusion and Development in Peru?

Empirical Evidence. Economies, 12(4), 93.

Documento en línea. Disponible

https://doi.org/10.3390/economies12040093

Rao, C., Liu, M., Goh, M., & Wen, J. (2020). 2-stage

modified random forest model for credit risk

assessment of P2P network lending to “Three

Rurals” borrowers. Applied Soft Computing, 95,

106570. Documento en línea. Disponible

https://doi.org/10.1016/j.asoc.2020.106570

Thuy, N. T. H., Ha, N. T. V., Trung, N. N., Binh, V.

T. T., Hang, N. T., & Binh, V. T. (2025).

Comparing the Effectiveness of Machine

Learning and Deep Learning Models in Student

Credit Scoring: A Case Study in Vietnam. Risks,

13(5). Documento en línea. Disponible

https://doi.org/10.3390/risks13050099

Wu, W. (2022). Machine Learning Approaches to

Predict Loan Default. Intelligent Information

Management, 14(05), 157–164. Documento en

línea. Disponible

https://doi.org/10.4236/iim.2022.145011

Yang, H. (2023). A Random Forest Approach to

Appraise Personal Credit Risk of Internet Loans.

Tehnicki Vjesnik - Technical Gazette, 30(2).

Documento en línea. Disponible

https://doi.org/10.17559/TV-20221003064737

Zhu, L., Qiu, D., Ergu, D., Ying, C., & Liu, K.

(2019). A study on predicting loan default based

on the random forest algorithm. Procedia

Computer Science, 162, 503–513. Documento en

línea. Disponible

https://doi.org/10.1016/j.procs.2019.12.017