Por favor, use este identificador para citar o enlazar este ítem:
http://dspace.espoch.edu.ec/handle/123456789/14586
Título : | SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R. |
Autor : | Morales Oñate, Víctor Hugo Moreta, Luis Morales Oñate, Bolívar |
Palabras claves : | SMOTE;CLASIFICACIÓN;MUESTRAS DESBALANCEADAS;CLASSIFICATION;UNBALANCED SAMPLES |
Fecha de publicación : | 24-abr-2020 |
Editorial : | Escuela Superior Politécnica de Chimborazo |
Abstract : | Analyzing samples with unbalanced data is a challenge for those who should use them in terms of modeling. A context in which this happens is when the response variable is binary and one of its classes is very small in proportion to the total. For the modeling of binary variables, probability models such as logit or probit are usually used. However, these models present problems when the sample is not balanced and it is desired to elaborate the confusion matrix from which the predictive power of the model is evaluated. One technique that allows the observed data to be balanced is the SMOTE algorithm, which works with numerical data exclusively. This work is an extension of SMOTE such that it allows the use of mixed data (numerical and categorical). By using mixed data, this proposal also makes it possible to overcome the barrier of 65536 observations that the R software has when working with categorical data distances. Through a simulation study, it is possible to verify the benefits of the proposed algorithm: SMOTEMD for mixed data. |
Resumen : | Analizar muestras con datos desbalanceados es un desafío para quien debe utilizarlos en términos de modelización. Un contexto en el que esto sucede es cuando la variable de respuesta es binaria y una de sus clases es muy pequeña en proporción respecto al total. Para la modelización de variables binarias se suele usar modelos de probabilidad como logit o probit. No obstante, estos modelos pre- sentan problemas cuando la muestra no es balanceada y se desea elaborar la matriz de confusión de donde se evalúa el poder predictivo del modelo. Una técnica que permite balancear los datos observados es el algoritmo SMOTE, el cual trabaja con datos numéricos exclusivamente. Este trabajo es una extensión de SMOTE tal que permite el uso de datos mixtos (numéricos y categóricos). Al usar datos mixtos,la presente propuesta también permite superar la barrera de 65536 observaciones que tiene el software R cuando trabaja con distancias de datos categóricos. Mediante un estudio de simulación, se logra verificar las bondades del algoritmo propuesto: SMOTEMD para datos mixtos. |
URI : | http://dspace.espoch.edu.ec/handle/123456789/14586 |
Aparece en las colecciones: | Número 24, Vol.2 (Julio - Diciembre 2020) |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
per_n24_v1_03.pdf | 319,77 kB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons