## Auxiliar 9 - Parte 2: Diagnóstico de Regresión #Primero, cargamos las librerías a utilizar y el set de datos con #el que se trabajará. library("stargazer") library("ggplot2") library("olsrr") library("corrplot") library(haven) datos <- read_dta("C:/Users/bluea/Documents/IN3242/casen_2017_stata/Casen2017.dta") View(datos) # revisamos qué columnas tenemos colnames(datos) base <- datos[, c("sexo", "edad", "o10", "o23", "esc", "educ", "ytrabajocor")] #Contamos con los siguientes atributos: #sexo #edad #o10: ¿Cuántas horas trabaja habitualmente por semana en su trabajo, negocio o #actividad principal? #o23: ¿Cuántas personas trabajan en total en ese negocio o empresa o institución? #esc: Años de escolaridad #educ: Nivel educacional más alto alcanzado #ytrabajocor: Ingreso del trabajo # Visualizar las primeras filas de la nueva base de datos View(base) # o10 e ytrabaj son variables numéricas que no son reconocidas como tal # así que cambiamos su tipo base$o10 <- as.numeric(base$o10) base$ytrabajocor <- as.numeric(base$ytrabajocor) #Tenemos que la experiencia potencial se define como la edad de la persona, #menos sus años de escolaridad y los años que pasó antes de entrar a la #educación formal (6 años). base$ExperienciaPotencial <- base[["edad"]] - base[["esc"]] - 6 # observemos la estadística descriptiva de esta nueva variable summary(base$ExperienciaPotencial) # Tenemos valores negativos para la experiencia potencial, lo cual no tiene #sentido. Pero se explica por el caso de las personas jóvenes. Por ejemplo, una #persona de 21 años, cuyos años de escolaridad han sido 16 (enseñanza escolar #completa + educación superior). En su caso, tenemos 21-16-6=-1. #Como vamos a trabajar con la Experiencia Potencial, asignamos estos valores #negativos y los NA a un valor 0. base$ExperienciaPotencial[base$ExperienciaPotencial < 0 & !is.na(base$ExperienciaPotencial)] <- 0 #El ingreso por hora se calcula como el ingreso mensual en las horas trabajadas #al mes. Y asumiendo que la persona trabaja las mismas horas todas las semanas, #esto equivale a `o10` * 4. # Ingreso por hora de los encuestados base$IngresoHora <- base$ytrabajocor / (base$o10 * 4) # Logaritmo del ingreso por hora base$log_IngresoHora <- log(base$IngresoHora) #Para trabajar con el modelo, se deben eliminar las filas con NA en las columnas #de experiencia potencial, escolaridad y salario base <- base[!is.na(base$log_IngresoHora) & !is.infinite(base$log_IngresoHora) & !is.na(base$esc) & !is.na(base$ExperienciaPotencial) ,] #calculamos el cuadrado de la experiencia potencial base$cuad_ExperienciaPotencial <- base$ExperienciaPotencial ** 2 base$cub_ExperienciaPotencial <- (base$ExperienciaPotencial) ** 3 ## Resolución Parte 2 #La ecuación de Mincer posee un término lineal y otro cuadrático de la #Experiencia, debido a cómo se comporta la curva entre Ingresos y Experiencia. #![Drag Racing](Nivel_de_ingreso_-_Función_de_ingreso_de_Minceer.png) ### Inciso (a) #Como ya tenemos las variables listas, ejecutemos los modelos de regresión #lineal con la ecuación de Mincer y aquel que se le agrega un término cúbico de #la Experiencia Potencial. lm_Mincer <- lm(log_IngresoHora ~ esc + ExperienciaPotencial + cuad_ExperienciaPotencial, data = base) lm_MincerMod <- lm(log_IngresoHora ~ esc + ExperienciaPotencial + cuad_ExperienciaPotencial + cub_ExperienciaPotencial, data = base) stargazer(lm_Mincer, lm_MincerMod, type = "text") #Vemos que el $R^2$ aumenta, pero el error de la experiencia potencial cuadrada #también aumenta. Aunque estas variaciones son mínimas. Entonces el modelo más #adecuado no necesariamente es uno u otro. #Para las partes siguientes, se trabajará con el primer modelo. ### Inciso (b) #Estudiamos si el modelo presenta heterocedasticidad. Para lo cual, graficamos #los errores el función de los valores predichos del modelo. # obtenemos los valores predichos y residuos del modelo predict_lm_Mincer = predict(lm_Mincer) residuals_lm_Mincer = residuals(lm_Mincer) # graficamos ggplot() + geom_point(aes(x = predict_lm_Mincer, y = residuals_lm_Mincer)) + labs(title = "Residuos en función de los valores predichos", x = "Salario predicho", y = "Valores residuales") #Se observa que la varianza es pequeña en cierta región y mucho mayor en otros #sitios. O sea, no es constante. #Pero para tener más seguridad, comprobémoslo con un test de hipótesis. Un test #de hipótesis que sirve para saber si el modelo presenta heterocedasticidad es #el llamado Test de Breuch Pagan, cuya formulación es: #$$H_0: \text{La varianza es constante}$$ #$$H_A: \text{La varianza no es constante}$$ testHeterocedasticidad <- ols_test_breusch_pagan(lm_Mincer) testHeterocedasticidad #El último término `Prob > Chi2` es el p-valor correspondiente al test, el cual, #en este caso es aproximable a cero ($1.17212e-48 \approx 0$). Por lo tanto, a #un 99% de #significancia, se rechaza que la varianza es constante. O sea, hay #heterocedasticidad, y no se cumple el supuesto de homocedasticidad de OLS. ### Inciso (c) #Para estudiar la multicolinealidad, se construye una matriz de correlación #entre las variables independientes del modelo. cor_indep <- cor(base[, c("esc", "ExperienciaPotencial", "cuad_ExperienciaPotencial")]) corrplot(cor_indep, type = "upper", order = "hclust", tl.col = "black", tl.srt = 30, tl.cex = 0.6) #Existe una alta correlación entre las variables de experiencia potencial, lo #cual es esperable debido a que una se puede construir a partir de una #transformación no lineal de la otra. Además, la escolaridad también tiene una #alta correlación con las variables de experiencia potencial, debido a que la #experiencia potencial se construye usando los años de escolaridad. ### Inciso (d) #Para analizar la heterogeneidad se debe pensar si la escolaridad está #correlacionada con alguna otra variable que no se incluye en el modelo de #Mincer, ¿con qué se relaciona la #escolaridad? #Del mismo modo, ¿con qué se relaciona la experiencia de una persona? ### Inciso (e) #El modelo presenta un fuerte problema de multicolinealidad, por lo tanto, las #estimaciones pueden no ser del todo certeras. Y también presenta #heterocedasticidad y se sospechan #problemas de endogeneidad. Por lo tanto, no cumple el teorema de Gauss Markov, #entonces este modelo no representa al mejor estimador lineal insesgado (MELI). #Entonces, puede que este modelo no sea tan adecuado para explicar perfectamente #la relación que existe entre los ingresos con la experiencia y la escolaridad.