2.3 Primeros pasos en el estudio de las clases sociales a través de la EPH
En esta sección exploraremos la EPH, identificando aquellas variables que tendremos que manipular, configurar y filtrar para comenzar a utilizar la encuesta. Específicamente presentaremos:
aquellas variables que nos permiten identificar viviendas y hogares, y que nos habilitarán a vincular la base de individuos con la de hogares;
aquellas variables que nos permiten seleccionar a la población adecuada, según nuestros objetivos, en el estudio de clases (edad, aglomerado, condición de actividad, etc.);
aquellas variables que nos permiten expandir y ponderar la muestra de datos.
2.3.1 Uniendo las bases de individuos y hogares
Muchas veces debemos utilizar en forma combinada la información de la base de individuos y la base de hogares. Por ejemplo, en el estudio de las clases sociales, si queremos estudiar cómo se distribuyen las condiciones habitacionales según la posición de clase, es necesario “traer” algunas variables de dicha dimensión a la base de individuos, desde donde vamos a construir nuestro esquema de clases sociales (debido a que la información socio-laboral se encuentra ahí). Esto comúnmente se conoce como “unión” de bases y es una práctica frecuente en el uso de bases de datos.
Al unir las bases de la EPH debe atenderse al hecho de que, en términos metodológicos, estaremos transitando de una unidad de análisis a otra. Mientras que en la base de hogares las unidades de análisis son la vivienda y el hogar, en la base individual nos estaremos refiriendo a personas. Siguiendo el ejemplo señalado en el párrafo anterior, si transferimos algunas variables sobre condiciones habitacionales a la base de individuos, estaremos transformándolas en atributos de las personas y no de las viviendas.
En ambas bases existen dos variables que nos permiten identificar a los hogares, para así realizar una unión precisa: CODUSU
y NRO_HOGAR
. Mientras que la primera es un ID
que distingue viviendas, la segunda permite distinguir hogares al interior de las mismas. Ambas nos permitirán no solo identificar hogares e individuos que residen en dichos hogares entre ambas bases, sino que también permiten hacer el seguimiento de los hogares en el panel.
Como primer ejercicio, utilizando el paquete eph
descargaremos las bases de individuos y hogares del tercer trimestre de 2019.
eph_ind_319 <- get_microdata(year = 2019, trimester = 3, type = "individual")
eph_hog_319 <- get_microdata(year = 2019, trimester = 3, type = "hogar")
Suponiendo que utilizaremos distintas variables de la base de hogares, probaremos “traer” todas las variables a la base de individuos. Para eso utilizaremos la función left_join
del paquete dplyr
y crearemos un nuevo dataframe
llamado eph_319
:
Una vez unidas ambas bases, podemos visualizar el resultado. La función left_join
al unir ambos dataframes
, identifica con las siglas .x
y .y
a aquellas variables repetidas en ambas bases. Las que llevan la x
corresponderán a la base de individuos y las que llevan y
a la base de hogares. Ejemplo de esto son las variables de ponderación (PONDERA
, PONDIH
), las de identificación de la base (ANO4
, TRIMESTRES
, NRO_HOGAR
) o las de ingresos (ITF
, IPCF
). Debido a que ambas presentan la misma información por caso, eliminaremos (mediante la función select(!(ends_with(".y")))
) las que finalizan con y:
Teniendo en cuenta los primeros 15 casos podemos observar que el número de variables asciende a 242:
De este modo, el dataframe
resultante (eph_319
) presenta la estructura de la base de individuos y para cada registro (individuo), se agrega la información correspondiente a su hogar. Por último, etiquetaremos las variables y categorías de las bases con la función organize_labels
.
2.3.2 Población bajo análisis
En los estudios de clases sociales no es lo mismo trabajar con individuos u hogares, jóvenes o viejos, habitantes de la totalidad del país o de una ciudad particular. Varias decisiones respecto al universo de estudio, las unidades de análisis y el enfoque temporal, deben hacerse en forma previa para realizar posteriormente un análisis preciso según las preguntas de investigación. En este apartado exploraremos algunas filtros que son aplicados comúnmente en este tipo de investigaciones.
2.3.2.1 Selección temporal
Una primera decisión será definir sobre qué período temporal trabajaremos en nuestra investigación. En este caso, tomando la base de individuos que hemos descargado, nos ceñiremos al tercer trimestre de 2019.
Sin embargo, nuestros objetivos pueden corresponderse a preguntas de tipo longitudinal, por lo cual nuestra selección podría abarcar un mayor período de tiempo, en términos de trimestres o de años. Por ejemplo, anteriormente descargamos tres bases de datos que correspondían a los cuartos trimestres de 2017 a 2019. En ese caso, podemos analizar los cambios ocurridos en la estructura de clases, observando la distribución de las mismas en cada cuarto trimestre durante tres años.
2.3.2.2 Selección espacial
En segundo lugar deberemos definir sobre que espacio, en términos geográficos o de jurisdicción (políticos), estaremos haciendo nuestro análisis. Como señalamos, la EPH recaba información sobre los principales aglomerados del país, cubriendo aproximadamente a un 70% de la población nacional total. La población se encuentra clasificada según su aglomerado de residencia en la variable AGLOMERADO
:
$label
[1] "Codigo de Aglomerado"
$class
[1] "labelled" "integer"
$labels
Gran La Plata Bahia Blanca - Cerri
2 3
Gran Rosario Gran Santa Fe
4 5
Gran Parana Posadas
6 7
Gran Resistencia Cdro. Rivadavia - R.Tilly
8 9
Gran Mendoza Corrientes
10 12
Gran Cordoba Concordia
13 14
Formosa Neuquen - Plottier
15 17
S. del Estero - La Banda Jujuy - Palpala
18 19
Rio Gallegos Gran Catamarca
20 22
Salta La Rioja
23 25
San Luis - El Chorrillo Gran San Juan
26 27
Gran Tucuman - T. Viejo Santa Rosa - Toay
29 30
Ushuaia - Rio Grande Ciudad de Buenos Aires
31 32
Partidos del GBA Mar del Plata - Batan
33 34
Rio Cuarto San Nicolas - Villa Constitucion
36 38
Rawson - Trelew Viedma - Carmen de Patagones.
91 93
A partir de los atributos de esta variable podemos reconocer los códigos que identifican a cada aglomerado. Supongamos ahora que queremos crear un nuevo objeto que nos guarde una selección determinada: la población que reside en el aglomerado Gran Mendoza. A través de la función dplyr::filter
vamos a filtrar a dicho aglomerado y lo guardaremos en el objeto eph_ind_319_sel
.
De esta forma el número de casos efectivos relevados por la EPH en el tercer trimestre de 2019 es de 2.354.
[1] 2354
Otra variable a considerar para realizar selecciones de tipo espacial es la de region
, que presenta los siguientes atributos:
$label
[1] "Codigo de Region"
$class
[1] "labelled" "integer"
$labels
Gran Buenos Aires Noroeste Nordeste Cuyo
"1" "40" "41" "42"
Pampeana
"43" "Patagonica"
2.3.2.3 Selecciones en base a características etarias
La edad es otra característica comúnmente utilizada como elemento de recorte analítico. Hay estudios sobre estratificación social (Erikson & Goldthorpe, 1992) que consideran que debe estudiarse aquella población mayor a 30 o 35 años, debido a que es a esa edad en donde se produce un proceso de consolidación laboral, y por ende, los sujetos se asientan, de algún modo, en una posición de clase. En contraposición, otros investigadores interesados en los procesos de estructuración de clase en juventudes optan por considerar la posición que asumen los mismos en las relaciones de trabajo.
Estás son decisiones que operan en base a los objetivos del análisis que se quiere emprender y deben ser consideradas. En este caso, como ejemplo, sobre la base de la selección realizada sobre el aglomerado Gran Mendoza, filtraremos a aquella población mayor a 25 años, suponiendo que con mayor probabilidad ya se encuentra inserta en el mercado de trabajo. Utilizaremos la variable CH06
en donde se recaba la edad en años cumplidos:
[1] 1476
Luego de aplicar la selección por edad, la base quedará con 1.476 casos.
2.3.2.4 Selección por condición de actividad
Otra gran pregunta que ha sentado debates en el estudio de las clases sociales es sobre si debe o no considerarse a la población desocupada o inactiva en tanto grupo capaz de ser clasificado en una determinada posición de clase.
Por un lado, algunos trabajos han saldado este problema considerando únicamente a la población ocupada, mientras que otros han identificado a la población económicamente activa (PEA), en tanto grupo posible a ser estudiado (Torrado, 1998a). Es necesario señalar que la EPH recaba información acerca de las características de la última ocupación realizada por la población desocupada, por lo cual dichos insumos pueden ser utilizados para su posicionamiento en un esquema de clases.
Por otro lado, la población inactiva difícilmente puede clasificarse directamente en una posición de clase, ya que por definición dichos individuos no se encuentran insertos en relaciones laborales. Algunas cuestiones sobre este problema serán retomadas en los próximos capítulos, cuando abordemos específicamente la construcción y medición de las clases.
Como ejemplo, sobre la selección anteriormente realizada, filtraremos únicamente a la PEA. Para esto utilizaremos la variable estado
que mide la condición de actividad de las personas. Si exploramos la variable, la PEA estará conformada por las categorías 1 (ocupados) y 2 (desocupados):
$label
[1] "Condicion de actividad"
$class
[1] "labelled" "integer"
$labels
Entrevista individual no realizada (no respuesta al cuestionario individual)
0
Ocupado
1
Desocupado
2
Inactivo
3
Menor de 10 anios.
4
[1] 987
Luego de seleccionar la PEA, la base quedará conformada por 987 casos.
2.3.2.5 ¿Hogares o individuos?
Finalmente, una decisión importante que debemos realizar, es si trabajaremos con los individuos u hogares en tanto unidades de análisis. Al igual que con la consideración de la población desocupada y/o inactiva, la respuesta a este interrogante es principalmente teórica. Retomaremos este problema en los próximos capítulos.
De momento, y según nuestros fines metodológicos, podemos señalar que hasta aquí, en la base que estamos construyendo, consideramos a los individuos como unidades de análisis. Una opción posible para trabajar desde los hogares, a partir de información de los individuos, es teniendo en cuenta al jefe/a de hogar como agente representante del grupo familiar. Esta es una práctica frecuente utilizada en los estudios de clases sociales, sobre la cual también existen considerables críticas.
Siguiendo con nuestro ejemplo, filtraremos únicamente a la población que es jefe/a de hogar, buscando consolidar una aproximación a la unidad de análisis “hogar”. Para ello utilizaremos la variable CH03
que releva a la relación de parentesco de los miembros de cada hogar:
$label
[1] "Relacion de parentesco"
$class
[1] "labelled" "integer"
$labels
Jefe/a Conyuge / Pareja Hijo/a Hijastro/a Yerno/Nuera
1 2 3 4
Nietro/a Madre/Padre Suegro/a Hermano/a
5 6 7 8
Otros Familiares No familiares
9 10
[1] 509
Al centrarnos en les jefes/as de hogares la base quedará conformada por 509 casos.
2.3.3 Ponderación y expansión de la muestra
Tal como hemos señalado en la caracterización de la EPH, nos estamos refiriendo a una encuesta de tipo probabilística que es representativa de la población que reside en los grandes aglomerados urbanos de Argentina. Por ello, para realizar de manera correcta los procesamientos y análisis de datos, la encuesta incluye diversos ponderadores que permiten tanto una recalibración de la muestra, debido a errores procedentes de la sobre o subrepresentación de diversos grupos poblacionales, y también, para expandir el número efectivo de casos al número total poblacional.
La variable PONDERA
es la que permite realizar esta operación cuando estamos trabajando con la mayor parte de las variables de la base. La misma es numérica e indica el número de personas u hogares del universo en estudio representada por cada persona u hogar de la muestra (corregidas por no respuesta). Por ejemplo, si queremos conocer el número de población expandida y ponderada de la muestra que hemos estado construyendo, haremos lo siguiente:
Al ponderar y expandir la muestra que hemos ido construyendo podemos observar que la misma da cuenta de 220.084 casos.
En el caso de los relevamientos posteriores a 2016, encontraremos otros ponderadores que tienen como principal función la corrección en la no respuesta de las variables de ingresos:
PONDII
para el tratamiento del ingreso total individual(p47t, decindr, adecindr, rdecindr, pdecindr, gdecindr, idecindr).PONDIIO
para el ingreso de la ocupación principal (p21, pp06c, pp06d, pp08d1, pp08d4, pp08f1, pp08f2, pp08j1, pp08j2,pp08j3, decocur, adecocur, rdecocur, pdecocur, gdecocur, idecocur).PONDIH
para el ingreso total familiar (ITF, decifr, adecifr, rdecifr, pdecifr, gdecifr, idecifr), el ingreso per cápita familiar (IPCF, deccfr, adecifr, rdecifr, pdecifr, gdecifr, idecifr).