Medición de la efectividad de técnicas de imputación para datos faltantes

Vinueza Chalco, Jamilton Daniel; Masaquiza Aragón, Galo Alexander

Por favor, use este identificador para citar o enlazar este ítem: http://dspace.espoch.edu.ec/handle/123456789/14828

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Flores Muñoz, Pablo Javier	-
dc.contributor.author	Vinueza Chalco, Jamilton Daniel	-
dc.contributor.author	Masaquiza Aragón, Galo Alexander	-
dc.date.accessioned	2022-01-20T17:21:23Z	-
dc.date.available	2022-01-20T17:21:23Z	-
dc.date.issued	2021-08-23	-
dc.identifier.citation	Vinueza Chalco, Jamilton Daniel; Masaquiza Aragón, Galo Alexander. (2021). Medición de la efectividad de técnicas de imputación para datos faltantes. Escuela Superior Politécnica de Chimborazo. Riobamba.	es_ES
dc.identifier.uri	http://dspace.espoch.edu.ec/handle/123456789/14828	-
dc.description	El presente trabajo de titulación tuvo por objetivo medir la efectividad en términos de precisión y calidad de estimación que presentan distintas técnicas de imputación para datos faltantes, provenientes de una distribución normal. A partir del método de Montecarlo, se creó una matriz bivariada estructurada por datos observados y por datos perdidos, donde los valores faltantes fueron desarrollados a través de un modelo establecido. Se simularon 100.000 veces muestras representativas de tamaño 5, 10, 30 y 100 trabajando con diversos porcentajes de pérdida de información para los escenarios: Faltantes completamente aleatorios (MCAR), Faltantes aleatorios (MAR) y Faltantes no aleatorios (MNAR). Se aplicaron las técnicas de imputación por eliminación, media, mediana y regresión lineal, en la cual se diagnosticó el ajuste de los datos a través de una medida de precisión y se verificó si los datos imputados mantienen sus propiedades de estimación de insesgadez y mínima varianza, utilizando los estimadores de media y varianza. Mediante el uso del software RStudio se determinó qué regresión lineal es la más precisa en muestras a partir de 30, mientras la media y mediana en muestras pequeñas como 5 por obtener valores más cercanos a los datos reales. La insesgadez de la media, demuestra que la mejor técnica es la imputación por regresión lineal, debido a que su propiedad se mantiene en muestras a partir de 30. En la insesgadez de la varianza la técnica más viable es la eliminación en los escenarios MAR y MCAR para muestras de 30 y 100, mientras para MNAR en muestras de cualquier tamaño. Conforme a la mínima varianza de la media y varianza, la técnica que arrojó una varianza inferior en la mayoría de los contextos es la regresión lineal. Se recomienda ampliar el estudio utilizando técnicas de imputación múltiple y machine learning para diagnosticar mejores resultados.	es_ES
dc.description.abstract	The objective of this research work was to measure the effectiveness in terms of precision and quality of estimation presented by different imputation techniques for missing data, coming from a normal distribution. From the Monte Carlo method, a bivariate matrix structured by observed data and by missing data was created, where the missing values were developed through an established model. Representative samples of size 5, 10, 30 and 100 were simulated 100,000 times working with different percentages of information loss for the scenarios: Missing completely at random (MCAR), missing at random (MAR) and missing not at random (MNAR). The imputation techniques by elimination, mean, median and linear regression were applied, in which the adjustment of the data was diagnosed through a precision measure and it was verified if the imputed data maintain their estimation properties of unbiasedness and minimum variance., using the mean and variance estimators. Using the RStudio software, it was determined which linear regression is the most accurate in samples from 30, while the mean and median in small samples such as 5 to obtain values closer to the real data. The unbiasedness of the mean shows that the best technique is the imputation by linear regression, since its property is maintained in samples from 30 onwards. In the unbiasedness of the variance, the most viable technique in MAR and MCAR is elimination for samples of 30 and 100, while for MNAR in samples of any size. According to the minimum variance of the mean and variance, the technique that yielded a lower variance in most contexts is linear regression. It is recommended to extend the study using multiple imputation techniques and machine learning to diagnose better results.	es_ES
dc.language.iso	spa	es_ES
dc.publisher	Escuela Superior Politécnica de Chimborazo	es_ES
dc.relation.ispartofseries	UDCTFC;226T0093	-
dc.rights	info:eu-repo/semantics/openAccess	es_ES
dc.subject	CIENCIAS EXACTAS Y NATURALES	es_ES
dc.subject	ESTADÍSTICA	es_ES
dc.subject	MÉTODO DE MONTECARLO	es_ES
dc.subject	IMPUTACIÓN DE DATOS	es_ES
dc.subject	PRECISIÓN DE AJUSTE	es_ES
dc.subject	PROPIEDADES DEL ESTIMADOR	es_ES
dc.title	Medición de la efectividad de técnicas de imputación para datos faltantes	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.contributor.miembrotribunal	Pazmiño Maji, Rubén Antonio	-
dc.rights.uri	https://creativecommons.org/licenses/by-nc-sa/3.0/ec/	es_ES
Aparece en las colecciones:	Ingeniero en Estadística Informática; Ingeniero/a Estadístico/a

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
226T0093.pdf		1,32 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons