6.3 Aproximación al análisis multidimensional
Por último en este capítulo revisaremos un breve ejemplo de análisis multidimensional. Este tipo de abordaje es el más completo para el estudio de las relaciones entre variables, ya que raramente la realidad social puede ser estudiada únicamente a partir de un análisis bivariado. La multicausalidad de los procesos sociales obliga a trabajar con abordajes que permitan captar la mayor cantidad de relaciones, manteniendo siempre la premisa de buscar explicaciones parsimoniosas.
En este sentido, existen distintas técnicas para abordar fenómenos multidimensionales, que dependerán de nuestros objetivos de investigación, tipos de variables, tipos de relaciones, fuente de datos, etc. Podemos nombrar las siguientes: tablas de contingencias múltiples, análisis de la varianza, regresión lineal múltiple, regresión logística, análisis de componentes principales, análisis de correspondencias múltiples, entre otros.
En este caso, retomaremos el ejemplo abordado en el apartado anterior: el vínculo entre la posición de clase y los ingresos. Pero, para completar el análisis, indagaremos también la influencia que tiene el género, la región de residencia y la edad en la captación de ingresos. Como puede verse, el análisis se torna mucho más completo agregando dichas variables.
Debido a que el tipo de variable dependiente con la que contamos (ingresos totales individuales) es cuantitativa, optaremos por emplear un análisis de regresión lineal múltiple. No entraremos en detalle sobre lo que implica dicha técnica, pero básicamente nos permitirá:
1. estimar la fuerza que cada variable presenta en la relación de dependencia,
2. realizar pronósticos sobre cómo se comportan las variables,
3. inferenciar al universo de estudio los resultados del modelo aplicado.
Como medida global, podremos obtener un coeficiente de bondad de ajuste que nos guiará sobre cuánto se aleja nuestro modelo respecto a la realidad social relevada por la encuesta.
En primer lugar para plantear un modelo de regresión, debemos configurar aquellas variables que son categóricas para que la función las pueda captar del modo correcto. Básicamente lo que necesitamos es transformar las variables cualitativas a factores. En este caso, solo debemos hacerlo con la variable REGION y CH04 (sexo). Le tendremos que señalar la etiqueta o valor que tomara cada categoría en la nueva variable factor. Asimismo, indicaremos mediante la función relevel que para la variable de clase queremos tomar como categoría de referencia a la Clase obrera - trabajadores marginales. A continuación explicaremos porque.
eph_ind_215$region_f <- factor(eph_ind_215$REGION, labels = c("GBA", "NOA", "NEA",
"Cuyo", "Pampeana", "Patagónica"))
eph_ind_215$sexo_f <- factor(eph_ind_215$CH04, labels = c("Varón", "Mujer"))
eph_ind_215$clase6_factor <- relevel(eph_ind_215$clase6_factor, ref = "Clase obrera - trabajadores marginales")
Realizado estos ajustes, estamos en condiciones de aplicar la regresión lineal múltiple. Antes, guardaremos en un nuevo data frame
la selección de casos con la que venimos trabajando. La función a utilizar será lm (Linear Models), en donde deberemos primero señalar la variable dependiente (P47T) y seguido del símbolo ~
pondremos todas las variables independientes. Al final indicaremos la base sobre la que estamos trabajando. Cada modelo debe ser guardado en un objeto y luego debe ser llamado mediante la función summary. Nuestro primer modelo solo medirá la influencia de la clase social sobre los ingresos.
eph_regresion <- eph_ind_215 %>%
filter(CH06 >= 20 & ESTADO == 1 & !is.na(clase6_factor))
regresion1 <- lm(P47T ~ clase6_factor, data = eph_regresion, weights = PONDERA)
summary(regresion1)
Call:
lm(formula = P47T ~ clase6_factor, data = eph_regresion, weights = PONDERA)
Weighted Residuals:
LABEL: MONTO DE INGRESO TOTAL INDIVIDUAL(sumatoria ingresos laborales y no laborales).
VALUES:
-548054, -58009, -17814, 29883, 3784597
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3848 145 26.51 <2e-16
clase6_factorClase alta 12015 584 20.56 <2e-16
clase6_factorClase media - autónoma 4817 179 26.88 <2e-16
clase6_factorClase media - asalariada 6007 158 38.02 <2e-16
clase6_factorClase obrera - autónoma 1714 192 8.95 <2e-16
clase6_factorClase obrera - asalariada 3480 160 21.80 <2e-16
Residual standard error: 125000 on 23764 degrees of freedom
Multiple R-squared: 0.0921, Adjusted R-squared: 0.0919
F-statistic: 482 on 5 and 23764 DF, p-value: <2e-16
Para simplificar el análisis vamos a prestarle atención a tres cuestiones. En primer lugar, la significatividad estadística, calculada a partir de los valores t y la última columna (estrellas), nos señalan que todas las categorías de la variable clase son significativas. Es decir, que podemos inferir los resultados al total del universo sobre el que se hizo nuestra muestra.
En segundo lugar, tendremos que observar cada uno de los coeficientes \(\beta\) (beta) de la columna estimate. Nos señalan en cuánto se incrementan los ingresos respecto a nuestra categoría de referencia. Recordemos que anteriormente configuramos para que nuestra categoría de referencia sea la clase obrera - trabajadores marginales. Esto implica a decir que las personas de clase alta ganan, en promedio estimado, $12.014
más que los trabajadores marginales o $6.007
en el caso de la clase media asalariada.
En tercer lugar, debemos prestar atención a la bondad de ajuste del modelo. Esta se mide a partir del R2
(coeficiente de determinación) y lo encontramos en la leyenda inferior de la tabla. Tomando el valor ajustado (Adjusted R-squared) y porcentualizándolo, podemos decir que la clase social explica un 9% de la distribución de los ingresos en la población. El restante 91% es lo que queda por indagar para saber que otras variables se encargan de explicarlo.
De esta forma, realizamos un segundo modelo (regresion2
) en donde incorporamos a los factores edad, región y sexo.
regresion2 <- lm(P47T ~ clase6_factor + CH06 + region_f + sexo_f, data = eph_regresion,
weights = PONDERA)
summary(regresion2)
Call:
lm(formula = P47T ~ clase6_factor + CH06 + region_f + sexo_f,
data = eph_regresion, weights = PONDERA)
Weighted Residuals:
LABEL: MONTO DE INGRESO TOTAL INDIVIDUAL(sumatoria ingresos laborales y no laborales).
VALUES:
-567092, -51654, -13290, 29441, 3730405
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1824.69 202.88 8.99 < 2e-16
clase6_factorClase alta 10933.10 556.07 19.66 < 2e-16
clase6_factorClase media - autónoma 3572.15 174.27 20.50 < 2e-16
clase6_factorClase media - asalariada 5610.99 152.77 36.73 < 2e-16
clase6_factorClase obrera - autónoma 100.75 189.47 0.53 0.595
clase6_factorClase obrera - asalariada 2420.17 160.70 15.06 < 2e-16
CH06 95.94 2.92 32.82 < 2e-16
region_fNOA -1722.77 128.08 -13.45 < 2e-16
region_fNEA -2033.19 179.94 -11.30 < 2e-16
region_fCuyo -748.05 148.26 -5.05 4.6e-07
region_fPampeana -228.72 90.34 -2.53 0.011
region_fPatagónica 3862.20 191.59 20.16 < 2e-16
sexo_fMujer -2106.44 79.63 -26.45 < 2e-16
Residual standard error: 119000 on 23757 degrees of freedom
Multiple R-squared: 0.181, Adjusted R-squared: 0.181
F-statistic: 438 on 12 and 23757 DF, p-value: <2e-16
Todas las categorías resultan significativas, salvo la clase obrera - autónoma. Los coeficientes de la variable clase se mantienen con la misma tendencia (“a mayor clase, mayor ingreso”), aunque sus efectos son un poco menores. La variable CH06 (edad) al ser cuantitativa es de fácil lectura: por cada año adicional de las personas, los ingresos se incrementan en $96
. Respecto a la región, la categoría de referencia es el GBA
, ya que no está presente en el cuadro. Todas las regiones deben compararse con esa. De este modo, las personas que viven en NOA
, NEA
, Cuyo
o Pampeana
, en promedio ganan menos que los que residen en GBA
(ver signo negativo). Los únicos residentes que parecieran tener un ingreso superior que los habitantes del GBA, son los de la región patagónica, con un monto que los supera en $3.862
. El último coeficiente compara los ingresos de las mujeres con los varones, ganando estás últimas, en promedio, $2.106
menos.
Finalmente, la bondad de ajuste mejora considerablemente, al presentarse un R2
de 18,06%
. Aún queda varianza por ser explicada por otros factores, pero aquellos que hemos incorporado suman significativamente a la explicación de la desigualdad de ingresos.