7.4 Aproximación al análisis multivariable de la movilidad social

En esta sección utilizaremos las siguientes librerías:

library(tidyverse, warn.conflicts = FALSE)
library(jtools)
library(huxtable)

Cómo hemos señalado en el Capítulo 7 cuando nos referíamos a la clase como variable independiente, también es posible realizar un análisis multidimensional sobre las oportunidades de movilidad social. En dicho caso, la variable dependiente es asumida por la posición de clase del encuestado, mientras que como factores independientes podemos considerar, además de la posición de clase del origen, otras dimensiones comúnmente estudiadas: el nivel educativos de los padres, el nivel educativo de los encuestados, el género, la edad, el lugar de nacimiento, entre otros.

Sin adentrarnos específicamente en la cuestión técnica, les investigadores que analizan estas cuestiones comúnmente utilizan la regresión logística binomial, la regresión logística multinomial o la regresión logística ordinal para responder a los interrogantes. Al igual que en la técnica de regresión que vimos anteriormente, la regresión logística nos permite identificar el peso o la influencia que determinados factores independientes tienen sobre una variable dependiente. En este caso, al disponer de una variable dependiente de tipo categorial (clase del encuestado) no puede usarse la técnica de regresión lineal, debiendo optarse por utilizar la transformación logística.

De este modo, es común que a través de la técnica se evalúe cuánto pesa el origen de clase y educativo en las chances de moverse en la estructura, así como aspectos de tipo adscriptivos, tales como el sexo o la edad, y otros adquiridos como el nivel educativo.

En nuestro caso, y para simplificar el análisis, vamos a ensayar la técnica de regresión logística binomial, adecuada para cuando nuestra variable dependiente es de tipo dicotómica, es decir, que sólo tiene dos categorías de respuesta. Para ello vamos a recodificar nuevamente nuestra variable de clase social del encuestado en dos categorías:
1. Aquellos pertenecientes a la clase de servicio
0. Aquellos pertenecientes a otras clases

Es decir, nosotros vamos a evaluar las probabilidades de acceder a la clase de servicio en lugar de a otra clase en función de diversos factores independientes condicionantes. Por eso, en primer lugar, recodificaremos la variable:

enes_movilidad <- enes_movilidad %>%
    mutate(egp2 = car::recode(egp5, "1=1; 2:5=0"), egp2_f = factor(egp2, labels = c("Clase de servicio",
        "Otra clase")))

Una vez realizada la recodificación, podemos construir la regresión logística tomando como factores independientes, en primer lugar, a los aspectos propiamente del origen social: la clase y la educación de los padres. Para ello recurriremos a la función glm (generalized linear model), que tiene un formato similar a la función lm, y debemos señalar la opción binomial en family. En este caso, para simplificar el proceso, no incorporaremos el ponderador, a través de la opción weights, ya que su aplicación no permite una correcto ajuste en la regresión 13.

Para observar los resultados utilizaremos la función summ (o export_summs si necesitamos exportar a Word o PDF) del paquete jtools que deberán instalar.

logit1 <- glm(egp2 ~ educ_hog_f + egp5a_f, data = enes_movilidad, family = "binomial")

summ(logit1)
Observations 5907 (1553 missing obs. deleted)
Dependent variable egp2
Type Generalized linear model
Family binomial
Link logit
𝛘²(6) 668.93
Pseudo-R² (Cragg-Uhler) 0.16
Pseudo-R² (McFadden) 0.10
AIC 6175.46
BIC 6222.24
Est. S.E. z val. p
(Intercept) -0.55 0.09 -6.08 0.00
educ_hog_fSec. completo 0.77 0.08 9.46 0.00
educ_hog_fSuperior completo 1.22 0.11 11.20 0.00
egp5a_fTR -0.61 0.14 -4.40 0.00
egp5a_fPB -0.66 0.10 -6.68 0.00
egp5a_fCTC -0.71 0.11 -6.19 0.00
egp5a_fCTNC -1.38 0.11 -12.88 0.00
Standard errors: MLE
logit1 <- glm(egp2 ~ educ_hog_f + egp5a_f, data = enes_movilidad, family = "binomial")

export_summs(logit1)

Esta primera información que nos brinda la función summ(logit1) nos permite decir tres cosas. En primer lugar, sabemos por la última columna que todos los coeficientes estimados son significativos estadísticamente (los p-value son menores a 0,05). En segundo lugar, en el caso del nivel educativo de origen, hay una ventaja de aquellos que provienen de niveles educativos superiores respecto a los inferiores (las estimaciones se incrementan a medida que ascendemos en la escala educativa). Siempre nuestra categoría de referencia será aquella que no está señalada en el cuadro, en este caso, el nivel educativo más bajo. Entonces, valores superiores a 0 nos dirán que las oportunidades de acceder a la clase de servicio mejoran al aumentar el nivel educativo de origen. Algo similar sucede con la clase social de origen, donde la categoría de contraste es justamente la clase de servicio. A medida que descendemos en la escala de clases, las oportunidades de moverse intergeneracionalmente a la clase de servicio disminuyen, aumentan en términos negativos.

En tercer lugar, los resultados de la sección model fit nos señalan distintas medidas de bondad de ajuste. En nuestro caso, observaremos los Pseudo-R2 que nos permiten una aproximación a la cantidad de varianza explicada por el modelo. En este caso, el modelo planteado explica entre un 10% y un 16% de la varianza total de la variable dependiente. Cuanto más alto sea dicho valor, mejor ajuste tendrá el modelo y mejores predicciones realizaremos sobre la realidad que estamos midiendo.

A continuación, elaboraremos un segundo modelo que incorpore como variables predictoras al nivel educativo y al sexo de los encuestades. Lo llamaremos logit2. A su vez, siguiendo el modo en que muchos estudios muestran los coeficientes de la regresión, pediremos a través del comando opción exp = TRUE de la función summ, que nos brinde las estimaciones en forma exponenciada. Como veremos a continuación esto facilitará la lectura de los mismos al transformarlos en razones de momios (odds ratios).

logit2 <- glm(egp2 ~ educ_hog_f + egp5a_f + educ_f + sexo_f, data = enes_movilidad,
    family = "binomial")

summ(logit2, exp = TRUE)
Observations 5900 (1560 missing obs. deleted)
Dependent variable egp2
Type Generalized linear model
Family binomial
Link logit
𝛘²(9) 1899.04
Pseudo-R² (Cragg-Uhler) 0.40
Pseudo-R² (McFadden) 0.28
AIC 4947.04
BIC 5013.87
exp(Est.) 2.5% 97.5% z val. p
(Intercept) 0.13 0.11 0.17 -16.01 0.00
educ_hog_fSec. completo 1.13 0.94 1.36 1.26 0.21
educ_hog_fSuperior completo 1.19 0.92 1.53 1.34 0.18
egp5a_fTR 0.63 0.46 0.86 -2.95 0.00
egp5a_fPB 0.64 0.51 0.80 -3.90 0.00
egp5a_fCTC 0.60 0.46 0.77 -3.90 0.00
egp5a_fCTNC 0.42 0.33 0.54 -7.02 0.00
educ_fSec. completo 4.31 3.61 5.16 15.96 0.00
educ_fSuperior completo 26.09 21.24 32.04 31.10 0.00
sexo_fMujer 1.17 1.01 1.36 2.15 0.03
Standard errors: MLE
logit2 <- glm(egp2 ~ educ_hog_f + egp5a_f + educ_f + sexo_f, data = enes_movilidad,
    family = "binomial")

export_summs(logit2, exp = TRUE)

Podemos observar que al incorporar las variables de nivel educativo y sexo la bondad de ajuste mejora considerablemente (principalmente por el nivel educativo), alcanzando valores de pseudo-R2 de entre 28% y 40%. Al mismo tiempo, los coeficientes de nivel educativo de origen ya no son significativos estadísticamente, es decir, que no tienen un impacto las probabilidades de acceso a la clase de servicio. Esto puede tener muchas explicaciones, pero siguiendo lo que vimos anteriormente en este capítulo, Blau y Duncan (1967) entendían que el menor peso del origen educativo en la movilidad social se debía a que el mismo se transfería no en forma directa, sino indirectamente a través del logro educativo de los hijos.

En este sentido, el nivel educativo alcanzado por los hijos es el “gran factor de explicación” del acceso a la clase de servicios. Que la categoría “superior completo” tenga un valor de 26,09 significa, en términos exponenciados, que los individuos con niveles educativos superiores a diferencia de los que tienen niveles bajos (hasta secundaria incompleta) tienen 26 veces más de oportunidades de acceder a la clase de servicio que al resto de la clases. En el caso de aquellos que tienen secundaria completa versus les que tienen niveles educativos bajos, las oportunidades son sólo 4 veces más altas.

En el caso del género, las mujeres presentan un 17% (1,17 veces) más de oportunidades que los varones de acceder a la clase de servicio.

Cómo regla de oro, las razones de momios (coeficientes exponenciados) pueden variar de 0 a infinito, siendo 1 la presencia de independencia estadística. Valores mayores a 1 implican una mayor oportunidad de que un suceso ocurra, mientras que valores menores a 1 implican menores oportunidades de que un suceso ocurra.

Finalmente si lo que se quiere es presentar la comparación entre los dos modelos (o varios), tal como se suelen mostrar en las revistas científicas, recomendamos la instalación del paquete huxtable. Utilizando el comando export_summs e indicando en las opciones nuestros modelos, mediante el código:

export_summs(logit1, logit2, scale = TRUE)
Tabla 7.2:
Model 1Model 2
(Intercept)-0.55 ***-2.00 ***
(0.09)   (0.13)   
educ_hog_fSec. completo0.77 ***0.12    
(0.08)   (0.10)   
educ_hog_fSuperior completo1.22 ***0.17    
(0.11)   (0.13)   
egp5a_fTR-0.61 ***-0.46 ** 
(0.14)   (0.16)   
egp5a_fPB-0.66 ***-0.45 ***
(0.10)   (0.11)   
egp5a_fCTC-0.71 ***-0.51 ***
(0.11)   (0.13)   
egp5a_fCTNC-1.38 ***-0.86 ***
(0.11)   (0.12)   
educ_fSec. completo       1.46 ***
       (0.09)   
educ_fSuperior completo       3.26 ***
       (0.10)   
sexo_fMujer       0.16 *  
       (0.07)   
N5907       5900       
AIC6175.46    4947.04    
BIC6222.24    5013.87    
Pseudo R20.16    0.40    
All continuous predictors are mean-centered and scaled by 1 standard deviation. The outcome variable is in its original units. *** p < 0.001; ** p < 0.01; * p < 0.05.

  1. Recomendamos el uso del paquete survey para la realización de procesamientos y estimaciones que impliquen el uso de ponderadores. Por fuera de R, STATA es uno de los mejores paquetes estadísticos que permiten fácilmente la realización de distintos tipos de regresiones↩︎