Uso de las técnicas DownSampling y UpSampling para abordar el desequilibrio de datos en la predicción de personas propensas a sufrir accidentes cerebrovasculares
DOI:
https://doi.org/10.36825/RITI.12.25.007Palabras clave:
Desbalance de Datos, DownSampling, UpSampling, Bosques Aleatorios, Aprendizaje de MáquinasResumen
Se emplean las técnicas de balanceo de datos DownSampling y UpSampling aplicadas a un conjunto relacionados con individuos propensos a tener un accidente cerebrovascular. El propósito de este trabajo es demostrar la importancia que tiene la aplicación de las técnicas de DownSamplig y UpSampling cuando nos encontramos con datos que presentan desbalance; haciendo una comparación entre las dos técnicas mencionadas y analizando el comportamiento de las medidas que se calculan en la matriz de confusión cuando se crea el modelo de predicción. El conjunto de datos está compuesto por 4981 registros, de ellos 4773 pertenecen a la clase de los que no han sufrido un accidente cerebrovascular y 248 a la clase que sí lo han tenido. Se encontró que para este conjunto de datos la mejor técnica para tratar el desbalance es la de UpSampling con la mayor de sus réplicas y en el momento en que se va a evaluar el modelo es importante, no solo basarse en su Exactitud, sino también en otras medidas que resultan de la matriz de confusión, esto para lograr un mejor análisis de los resultados que se obtienen.
Citas
Martinelli, J. E. (2022). Clasificación de datos desbalanceados. Su aplicación en la predicción de bajas de beneficiarios de un servicio de salud privado. Facultad de Informática, Universidad Nacional de La Plata, Argentina. https://sedici.unlp.edu.ar/bitstream/handle/10915/147410/Documento_completo.pdf?sequence=1&isAllowed=
Kaggle (2022). Brain Stroke Dataset Classification Prediction. https://www.kaggle.com/datasets/jillanisofttech/brain-stroke-dataset
Breiman, L. (2001). Random Forest. Machine Learning, 45 (1), 5-32. http://dx.doi.org/10.1023/A:1010933404324
Del Castillo Collazo, N. (2020). Predicción en el diagnóstico de tumores de cáncer de mama empleando métodos de clasificación. Revista de Investigación en Tecnología de la Información (RITI), 8 (15), 96-104. https://doi.org/10.36825/RITI.08.15.009
Cirillo, A. (2017). R Data Mining. Implement data mining techniques through practical use cases and real-world datasets. Packt Publishing Ltd.
Villalba, F. (2018). Aprendizaje supervisado en R. https://fervilber.github.io/Aprendizaje-supervisado-en-R/bosques.html
Sotaquirá, M. (2021). Los Bosques Aleatorios: Clasificación y Regresión. https://www.codificandobits.com/blog/bosques-aleatorios/
Carrasco Calle, R. A. (2021). ¿Cómo manejar el desbalance de datos? https://datasciencepe.substack.com/p/como-manejar-el-desbalance-de-datos
Cruz-Reyes H., Reyes-Nava A., Rendón-Lara E., Alejo R. (2018). Estudio del desbalance de clases en bases de datos de microarrays de expresión genética mediante técnicas de Deep Learning. Research in Computing Science, 147 (5), 197–207. http://dx.doi.org/10.13053/rcs-147-5-15
Landa Cosio, N. A. (2021). Cómo actuar ante el desbalance de datos. https://medium.com/@nicolasarrioja/c%C3%B3mo-actuar-ante-el-desbalance-de-datos-a0d64f2b9619#:~:text=Downsampling%20consiste%20en%20quitar%20puntos,que%20la%20clase%20menos%20
Aldás, J., Uriel, E. (2017). Análisis Multivariante aplicado con R (2da Ed.). Ediciones Paraninfo.
Amazon Web Services (AWS). (2024). ¿Qué es el sobreajuste? https://aws.amazon.com/es/what-is/overfitting/
IBM. (2024). ¿Qué es el sobreajuste? https://www.ibm.com/mx-es/topics/overfitting
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2024 Revista de Investigación en Tecnologías de la Información
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Esta revista proporciona un acceso abierto a su contenido, basado en el principio de que ofrecer al público un acceso libre a las investigaciones ayuda a un mayor intercambio global del conocimiento.
El texto publicado en la Revista de Investigación en Tecnologías de la Información (RITI) se distribuye bajo la licencia Creative Commons (CC BY-NC), que permite a terceros utilizar lo publicado citando a los autores del trabajo y a RITI, pero sin hacer uso del material con propósitos comerciales.