Capítulo 2 Encuestas de hogares

Este capítulo introduce las características generales de la Encuesta Permanente de Hogares (EPH), elaborada por el Instituto Nacional de Estadísticas y Censos (INDEC), en tanto herramienta central para el estudio de la estructura de clases en Argentina. Asimismo, se revisan otras encuestas de hogares alternativas para el estudio de la desigualdad social.

Se abordan las siguientes preguntas:

  • ¿Cuáles son las principales características de la EPH?
  • ¿Qué elementos presenta para el estudio de la estructura de clases argentina?
  • ¿Cuáles son las limitaciones que debemos considerar? ¿Qué cambios ha presentado a lo largo del tiempo?
  • ¿Cuáles son las principales variables para el análisis de clase?
  • ¿Qué formas existen para acceder a los micro-datos?
  • ¿Qué ventajas presenta cada forma de acceso?
  • ¿Por qué es necesario considerar otras fuentes de información a la hora de analizar las clases sociales?

Al completar este capítulo se espera que les lectores puedan:

  1. Identificar las principales características, ventajas y desventajas en el uso de la EPH para el estudio de la estructura de clases en Argentina.
  2. Aprender a localizar la información necesaria, incorporando distintos métodos de acceso a la misma (descarga de microdatos desde la web de INDEC y uso de paquete eph para R).
  3. Conocer otras fuentes de información existentes para el estudio de las clases sociales y diversas facetas de la desigualdad.
  4. Incorporar las herramientas para abrir los micro-datos de EPH en RStudio y realizar exploraciones preliminares.

Para una mayor comprensión del capítulo recomendamos la lectura de los siguientes documentos:

  • INDEC. (2020). Encuesta Permanente de Hogares. Diseño de registro y estructura para las bases preliminares Hogar y Personas.

  • INDEC. (2003). La nueva Encuesta Permanente de Hogares de Argentina: 2003

  • Kozlowski, D., Tiscornia, P., Weksler, G., Rosati, G., y Shokida, N. (2020). eph: Argentina’s permanent household survey data and manipulation utilities (manual).

  • Minoldo, S., y Born, D. (2019). Claroscuros: 9 años de datos bajo sospecha (EPH en Argentina entre 2007 y 2015).

2.1 La Encuesta Permanente de Hogares. Características principales

La Encuesta Permanente de Hogares (EPH) se constituye como un programa nacional de producción sistemática y permanente de indicadores sociales que lleva a cabo el INDEC. que fundamentalmente permite conocer las características sociodemográficas y socioeconómicas de la población de manera periódica. Comenzó a aplicarse desde 1973, bajo una modalidad (puntual) que implicaba un doble relevamiento anual (mayo y octubre). Si bien hasta el año 1983 tenía una cobertura limitada al Gran Buenos Aires (GBA), paulatinamente fue ampliándose llegando en la actualidad a cubrir un total de 31 aglomerados:

  • Gran La Plata
  • Bahía Blanca - Cerri
  • Gran Rosario
  • Gran Santa Fé
  • Gran Paraná
  • Posadas
  • Gran Resistencia
  • Comodoro Rivadavia - Rada Tilly
  • Gran Mendoza
  • Corrientes
  • Gran Córdoba
  • Concordia
  • Formosa
  • Neuquén – Plottier
  • Santiago del Estero - La Banda
  • Jujuy-Palpalá
  • Río Gallegos
  • Gran Catamarca
  • Gran Salta
  • La Rioja
  • Gran San Luis
  • Gran San Juan
  • Gran Tucumán - Tafí Viejo
  • Santa Rosa – Toay
  • Ushuaia - Río Grande
  • Ciudad Autónoma de Buenos Aires
  • Partidos del GBA
  • Mar del Plata - Batán
  • Río Cuarto
  • San Nicolás – Villa Constitución
  • Rawson – Trelew
  • Viedma – Carmen de Patagones

Respecto a la EPH puntual, existen distintos tipos de bases de datos oficiales publicadas, ordenadas según su nivel de complejidad y de desagregación de las variables: Base r2 usuarias (R2U), Base usuaria (BU), Base de trabajo (BT), Base usuaria ampliada (BUA).

2.1.1 Características de la EPH continua

A partir de 2003, el INDEC reformuló integralmente a la EPH, dando lugar a lo que se conoce como “EPH continua”. Específicamente podemos hablar de los siguientes cambios:

  • Reformulación temática: se realizaron cambios en la forma de captación de las principales dimensiones relevadas a los fines de medir en forma más precisa aquellos procesos sociales que sufrieron transformaciones en la última década del siglo XX.

  • Reformulación muestral: la periodicidad de la encuesta paso a ser de cuatro estimaciones por año (trimestral), ampliando la cobertura geográfica y manteniéndose el diseño de panel (esquema de rotación de los hogares).

Actualmente la EPH releva específicamente a 31 aglomerados urbanos que representan el 70% de la población urbana del país. El instrumento de recolección consta de tres cuestionarios (vivienda, hogares y personas), aunque las bases de microdatos se presentan bajo el formato de hogares e individuos. Las principales dimensiones relevadas son:

  • situación laboral
  • características demográficas básicas
  • migración
  • características habitacionales
  • educación
  • ingresos

El esquema de rotación del diseño de panel (2-2-2), implica que las viviendas de un área ingresan a la muestra para ser encuestadas en dos trimestres consecutivos, en el mes y semana asignados a esa área. Luego, se retiran por dos trimestres consecutivos y vuelven a la muestra para ser encuestadas en dos trimestres consecutivos en el mes y semana asignados a esa área.

2.1.2 La EPH como fuente de análisis de la estructura de clases

La EPH presenta, al menos, tres características fundamentales que la transforman en una fuente de datos predilecta para el estudio de la estructura de clases:

  1. Variables sociolaborales: la encuesta cuenta con un conjunto de variables que relevan la dimensión sociolaboral que no son frecuentemente relevadas en otras las encuestas de hogares. Principalmente nos referimos a variables que permiten determinar la posición que los individuos ocupan en las relaciones de trabajo: la condición de actividad, la categoría ocupacional, la ocupación, el sector de actividad, la rama de actividad, el tamaño del establecimiento en el cual se ejerce el trabajo, la supervisión del empleo de otros trabajadores, etc. Todas estás variables son centrales para la construcción de la mayoría de los nomencladores socio-ocupacionales y esquemas de clase, más allá de su filiación teórica.

  2. Relevamiento continuo y generalizado: el hecho de que la construcción de la información se realice en forma periódica y desde hace años, permite que la comparabilidad a lo largo del tiempo (no sin dificultades en los “empalmes” entre momentos en los que hubo cambios metodológicos significativos). A su vez, al relevar aproximadamente al 70% de los aglomerados urbanos de la Argentina, permite distintos niveles de comparabilidad a nivel regional, de ciudades u otras áreas geográficas.

  3. Relevamiento de otras dimensiones: finalmente, el relevamiento de otras dimensiones tales como las características demográficas y de composición de los hogares, el hábitat, el logro educativo o los ingresos, permite la puesta en relación del posicionamiento de clase con otros tópicos centrales de la desigualdad.

Diversos trabajos recientes han utilizado la EPH, que, desde un enfoque de clases, tales como los de Benza (2016); Chávez Molina & Sacco (2015); Dalle & Stiberman (2017); Palomino & Dalle (2012); Pla et al. (2018); Sacco (2019) y Solís, Chávez Molina, & Cobos (2019).

2.2 Comenzando a utilizar la EPH

Existen diversas formas de descargar y abrir las bases de micro-datos de la EPH desde R. En primer lugar, a partir de la descarga manual desde la web de INDEC. Este método permite acceder a todas las bases de la EPH disponibles oficialmente, desde 1974 a la actualidad. En segundo lugar, de acuerdo a algún programa. En este capítulo revisaremos el uso del paquete eph (Kozlowski et al., 2020), que nos simplifica el trabajo de acceso a micro-datos, así como el armado de pools de datos. Temporalmente, su única limitación es que sólo podemos descargar las bases a partir de la primera onda de 1996. Utilizaremos las siguientes librerías de R:

2.2.1 El “método clásico”

2.2.1.1 Bases 2016-2020

Dependiendo del período que necesitemos analizar, encontraremos que las bases a descargar se encuentran en distintos formatos de archivo. Como ejemplo, podemos comenzar por una primera prueba descargando la base correspondiente al tercer trimestre de 2019 en formato .txt desde el sitio web del INDEC. El archivo .zip que descarguemos contendrá un archivo .txt referido a la base de individuos (Usu_individual_T319.txt) y otro referido a la base de hogares (Usu_hogar_T319.txt).

Como buena práctica en la organización de la información que vamos utilizando, es recomendable alojar los archivos (en este caso las bases que descarguemos) en la carpeta del proyecto con el que estemos trabajando en RStudio (en este caso, le hemos puesto el nombre “bases”). En este caso utilizaremos el comando read.csv2, ya que nos permite importar archivos de texto plano delimitados. Señalamos que el delimitador es ; y que el archivo cuenta en su línea superior con los nombres de las variables (header = TRUE):

eph_ind_319 <- read.csv2("bases/Usu_individual_T319.txt", header = TRUE, sep = ";",
    dec = ",")

Observando los primeros 15 registros de la base podemos dar cuenta que la misma se ha cargado correctamente y explorar las distintas variables que contiene.



La base cuenta con 57.229 registros-filas (individuos) y 177 columnas (variables):

nrow(eph_ind_319)
[1] 57229
ncol(eph_ind_319)
[1] 177

2.2.1.2 Bases 2003-2015

En el caso de las bases de microdatos pertenecientes al período 2003-2015, podemos encontrarlas en formato .sav (SPSS) y .dta (STATA). Ambos formatos pueden ser importados desde R a través de la librería haven.

En este ejemplo utilizaremos la base de hogares del cuarto trimestre de 2014 (Hogar_t414) y la descargaremos en formato .sav.

eph_hog_414 <- read_sav("bases/Hogar_t414.sav")

Una de las ventajas de importar los datos desde el formato .sav o .dta es que generalmente están etiquetadas las variables. En el caso de la importación de archivos .txt o .csv esto no sucede.

2.2.1.3 Bases 1974-2002

Finalmente probaremos descargar la base más antigua que se encuentra disponible en la página web del INDEC. Nos referimos a los microdatos de la base usuaria de individuos del año 1974 para el Gran Buenos Aires

Como hemos señalado, las bases anteriores a 2003 se encuentran únicamente en formato .dbf. Para poder importarlas en R necesitaremos instalar y llamar a la librería foreign.

eph_ind_74 <- read.dbf("bases/PERSO_US.DBF")

En la siguiente tabla podemos ver los primeros 15 registros de la base:

2.2.2 El paquete eph

El paquete eph es una gran herramienta para usuaries de R que utilicen con frecuencia la EPH. Permite no solo la descarga de las bases oficiales del INDEC, sino que también, entre varias funciones, nos habilita a incorporar las etiquetas a las variables y categorías, organizar pools de datos en panel o calcular y estimar tasas de pobreza.

En este manual, aprenderemos a descargar las bases de la EPH a través del paquete y armar un pool de datos, en el que dispondremos de distintas bases unidas, para diversos tipos de análisis.

En primer lugar probaremos descargar la base individual de la EPH para el 4to trimestre de 2019, a través de la función get_microdata. Vale aclarar que, al momento de escritura de este manual, únicamente pueden descargarse las bases posteriores al año 1996:

eph_ind_419 <- get_microdata(year = 2019, trimester = 4, type = "individual")

Como puede observarse, la función es sumamente intuitiva. Únicamente debemos modificar los parámetros year, trimester y type, para descargar la información deseada. En el caso de la EPH puntual, en lugar de usar el parámetro trimester utilizaremos wave, que acepta los valores 1 y 2. En este caso, creamos el objeto eph_ind_419 para guardar la base descargada.

Por default, la función nos devuelve todas las variables, si queremos realizar alguna selección de variables podríamos utilizar el parámetro vars. Aquí un ejemplo:

eph_estado <- get_microdata(year = 2019, trimester = 4, type = "individual", vars = c("CODUSU",
    "NRO_HOGAR", "ANO4", "ESTADO"))

names(eph_estado)
[1] "CODUSU"    "NRO_HOGAR" "ANO4"      "ESTADO"   

En el ejemplo anterior, elegimos únicamente descargar las variables CODUSU, NRO_HOGAR, ANO4 y ESTADO. Dicho parámetro es muy útil para descargar solo aquella información que realmente necesitamos y no ocupar la memoria RAM de datos innecesarios. Sobre todo cuando armemos pools de datos y las bases construidas sean de un gran peso, el parámetro vars será de una gran utilidad.

Otra utilidad importante del paquete es que nos permite etiquetar las variables y las categorías automáticamente. Para ello se utiliza la función organize_labels:

eph_ind_419 <- organize_labels(eph_ind_419, type = "individual")

Por ejemplo, visualizaremos las etiquetas de la variable ESTADO:

attributes(eph_ind_419$ESTADO)
$label
[1] "Condicion de actividad"

$class
[1] "labelled" "integer" 

$labels
Entrevista individual no realizada (no respuesta al cuestionario individual) 
                                                                           0 
                                                                     Ocupado 
                                                                           1 
                                                                  Desocupado 
                                                                           2 
                                                                    Inactivo 
                                                                           3 
                                                          Menor de 10 anios. 
                                                                           4 

La variable se encuentra etiquetada como “Condición de actividad”. El tipo (class) de variable es labelled e interger, ya que si bien la variable es numérica entera también se encuentra etiquetada (“labelled”). Finalmente podemos ver las cuatro categorías de la variable: 0) Entrevista individual no realizada; 1) Ocupado; 2) Desocupado; 3) Inactivo; 4) Menor de 10 años.

Finalmente, la función get_microdata también nos permite descargar múltiples bases de la EPH y que luego podemos pegar a los fines de poder trabajarlas longitudinalmente. Mostraremos un ejemplo descargando la selección de variables que hemos realizado anteriormente, pero para todos los cuartos trimestres de los años 2017-2019:

eph_estado_1719 <- get_microdata(year = 2017:2019, trimester = 4, type = "individual",
    vars = c("CODUSU", "NRO_HOGAR", "ANO4", "ESTADO"))  #Descargo las bases

Como advertencia, al descargar un número importante de bases (y de variables), el proceso puede tornarse lento y, al mismo tiempo, su resultado satisfactorio puede depender de la cantidad de memoria RAM disponible que tengamos al momento.

2.3 Primeros pasos en el estudio de las clases sociales a través de la EPH

En esta sección exploraremos la EPH, identificando aquellas variables que tendremos que manipular, configurar y filtrar para comenzar a utilizar la encuesta. Específicamente presentaremos:

  • aquellas variables que nos permiten identificar viviendas y hogares, y que nos habilitarán a vincular la base de individuos con la de hogares;

  • aquellas variables que nos permiten seleccionar a la población adecuada, según nuestros objetivos, en el estudio de clases (edad, aglomerado, condición de actividad, etc.);

  • aquellas variables que nos permiten expandir y ponderar la muestra de datos.

2.3.1 Uniendo las bases de individuos y hogares

Muchas veces debemos utilizar en forma combinada la información de la base de individuos y la base de hogares. Por ejemplo, en el estudio de las clases sociales, si queremos estudiar cómo se distribuyen las condiciones habitacionales según la posición de clase, es necesario “traer” algunas variables de dicha dimensión a la base de individuos, desde donde vamos a construir nuestro esquema de clases sociales (debido a que la información socio-laboral se encuentra ahí). Esto comúnmente se conoce como “unión” de bases y es una práctica frecuente en el uso de bases de datos.

Al unir las bases de la EPH debe atenderse al hecho de que, en términos metodológicos, estaremos transitando de una unidad de análisis a otra. Mientras que en la base de hogares las unidades de análisis son la vivienda y el hogar, en la base individual nos estaremos refiriendo a personas. Siguiendo el ejemplo señalado en el párrafo anterior, si transferimos algunas variables sobre condiciones habitacionales a la base de individuos, estaremos transformándolas en atributos de las personas y no de las viviendas.

En ambas bases existen dos variables que nos permiten identificar a los hogares, para así realizar una unión precisa: CODUSU y NRO_HOGAR. Mientras que la primera es un ID que distingue viviendas, la segunda permite distinguir hogares al interior de las mismas. Ambas nos permitirán no solo identificar hogares e individuos que residen en dichos hogares entre ambas bases, sino que también permiten hacer el seguimiento de los hogares en el panel.

Como primer ejercicio, utilizando el paquete eph descargaremos las bases de individuos y hogares del tercer trimestre de 2019.

eph_ind_319 <- get_microdata(year = 2019, trimester = 3, type = "individual")
eph_hog_319 <- get_microdata(year = 2019, trimester = 3, type = "hogar")

Suponiendo que utilizaremos distintas variables de la base de hogares, probaremos “traer” todas las variables a la base de individuos. Para eso utilizaremos la función left_join del paquete dplyr y crearemos un nuevo dataframe llamado eph_319:

eph_319 <- eph_ind_319 %>%
    left_join(eph_hog_319, by = c("CODUSU", "NRO_HOGAR"))

Una vez unidas ambas bases, podemos visualizar el resultado. La función left_join al unir ambos dataframes, identifica con las siglas .x y .y a aquellas variables repetidas en ambas bases. Las que llevan la x corresponderán a la base de individuos y las que llevan y a la base de hogares. Ejemplo de esto son las variables de ponderación (PONDERA, PONDIH), las de identificación de la base (ANO4, TRIMESTRES, NRO_HOGAR) o las de ingresos (ITF, IPCF). Debido a que ambas presentan la misma información por caso, eliminaremos (mediante la función select(!(ends_with(".y")))) las que finalizan con y:

eph_319 <- eph_319 %>%
    select(!(ends_with(".y")))

Teniendo en cuenta los primeros 15 casos podemos observar que el número de variables asciende a 242:

De este modo, el dataframe resultante (eph_319) presenta la estructura de la base de individuos y para cada registro (individuo), se agrega la información correspondiente a su hogar. Por último, etiquetaremos las variables y categorías de las bases con la función organize_labels.

eph_ind_319 <- organize_labels(eph_ind_319, type = "individual")
eph_hog_319 <- organize_labels(eph_hog_319, type = "hogar")

2.3.2 Población bajo análisis

En los estudios de clases sociales no es lo mismo trabajar con individuos u hogares, jóvenes o viejos, habitantes de la totalidad del país o de una ciudad particular. Varias decisiones respecto al universo de estudio, las unidades de análisis y el enfoque temporal, deben hacerse en forma previa para realizar posteriormente un análisis preciso según las preguntas de investigación. En este apartado exploraremos algunas filtros que son aplicados comúnmente en este tipo de investigaciones.

2.3.2.1 Selección temporal

Una primera decisión será definir sobre qué período temporal trabajaremos en nuestra investigación. En este caso, tomando la base de individuos que hemos descargado, nos ceñiremos al tercer trimestre de 2019.

Sin embargo, nuestros objetivos pueden corresponderse a preguntas de tipo longitudinal, por lo cual nuestra selección podría abarcar un mayor período de tiempo, en términos de trimestres o de años. Por ejemplo, anteriormente descargamos tres bases de datos que correspondían a los cuartos trimestres de 2017 a 2019. En ese caso, podemos analizar los cambios ocurridos en la estructura de clases, observando la distribución de las mismas en cada cuarto trimestre durante tres años.

2.3.2.2 Selección espacial

En segundo lugar deberemos definir sobre que espacio, en términos geográficos o de jurisdicción (políticos), estaremos haciendo nuestro análisis. Como señalamos, la EPH recaba información sobre los principales aglomerados del país, cubriendo aproximadamente a un 70% de la población nacional total. La población se encuentra clasificada según su aglomerado de residencia en la variable AGLOMERADO:

attributes(eph_ind_319$AGLOMERADO)
$label
[1] "Codigo de Aglomerado"

$class
[1] "labelled" "integer" 

$labels
                   Gran La Plata             Bahia Blanca - Cerri 
                               2                                3 
                    Gran Rosario                    Gran Santa Fe 
                               4                                5 
                     Gran Parana                          Posadas 
                               6                                7 
                Gran Resistencia        Cdro. Rivadavia - R.Tilly 
                               8                                9 
                    Gran Mendoza                       Corrientes 
                              10                               12 
                    Gran Cordoba                        Concordia 
                              13                               14 
                         Formosa               Neuquen - Plottier 
                              15                               17 
        S. del Estero - La Banda                  Jujuy - Palpala 
                              18                               19 
                    Rio Gallegos                   Gran Catamarca 
                              20                               22 
                           Salta                         La Rioja 
                              23                               25 
         San Luis - El Chorrillo                    Gran San Juan 
                              26                               27 
         Gran Tucuman - T. Viejo                Santa Rosa - Toay 
                              29                               30 
            Ushuaia - Rio Grande           Ciudad de Buenos Aires 
                              31                               32 
                Partidos del GBA            Mar del Plata - Batan 
                              33                               34 
                      Rio Cuarto San Nicolas - Villa Constitucion 
                              36                               38 
                 Rawson - Trelew    Viedma - Carmen de Patagones. 
                              91                               93 

A partir de los atributos de esta variable podemos reconocer los códigos que identifican a cada aglomerado. Supongamos ahora que queremos crear un nuevo objeto que nos guarde una selección determinada: la población que reside en el aglomerado Gran Mendoza. A través de la función dplyr::filter vamos a filtrar a dicho aglomerado y lo guardaremos en el objeto eph_ind_319_sel.

eph_ind_319_sel <- eph_ind_319 %>%
    filter(AGLOMERADO == 10)

De esta forma el número de casos efectivos relevados por la EPH en el tercer trimestre de 2019 es de 2.354.

nrow(eph_ind_319_sel)
[1] 2354

Otra variable a considerar para realizar selecciones de tipo espacial es la de region, que presenta los siguientes atributos:

attributes(eph_ind_319$REGION)
$label
[1] "Codigo de Region"

$class
[1] "labelled" "integer" 

$labels
Gran Buenos Aires          Noroeste          Nordeste              Cuyo 
              "1"              "40"              "41"              "42" 
         Pampeana                   
             "43"      "Patagonica" 

2.3.2.3 Selecciones en base a características etarias

La edad es otra característica comúnmente utilizada como elemento de recorte analítico. Hay estudios sobre estratificación social (Erikson & Goldthorpe, 1992) que consideran que debe estudiarse aquella población mayor a 30 o 35 años, debido a que es a esa edad en donde se produce un proceso de consolidación laboral, y por ende, los sujetos se asientan, de algún modo, en una posición de clase. En contraposición, otros investigadores interesados en los procesos de estructuración de clase en juventudes optan por considerar la posición que asumen los mismos en las relaciones de trabajo.

Estás son decisiones que operan en base a los objetivos del análisis que se quiere emprender y deben ser consideradas. En este caso, como ejemplo, sobre la base de la selección realizada sobre el aglomerado Gran Mendoza, filtraremos a aquella población mayor a 25 años, suponiendo que con mayor probabilidad ya se encuentra inserta en el mercado de trabajo. Utilizaremos la variable CH06 en donde se recaba la edad en años cumplidos:

eph_ind_319_sel <- eph_ind_319_sel %>%
    filter(CH06 >= 25)

nrow(eph_ind_319_sel)
[1] 1476

Luego de aplicar la selección por edad, la base quedará con 1.476 casos.

2.3.2.4 Selección por condición de actividad

Otra gran pregunta que ha sentado debates en el estudio de las clases sociales es sobre si debe o no considerarse a la población desocupada o inactiva en tanto grupo capaz de ser clasificado en una determinada posición de clase.

Por un lado, algunos trabajos han saldado este problema considerando únicamente a la población ocupada, mientras que otros han identificado a la población económicamente activa (PEA), en tanto grupo posible a ser estudiado (Torrado, 1998a). Es necesario señalar que la EPH recaba información acerca de las características de la última ocupación realizada por la población desocupada, por lo cual dichos insumos pueden ser utilizados para su posicionamiento en un esquema de clases.

Por otro lado, la población inactiva difícilmente puede clasificarse directamente en una posición de clase, ya que por definición dichos individuos no se encuentran insertos en relaciones laborales. Algunas cuestiones sobre este problema serán retomadas en los próximos capítulos, cuando abordemos específicamente la construcción y medición de las clases.

Como ejemplo, sobre la selección anteriormente realizada, filtraremos únicamente a la PEA. Para esto utilizaremos la variable estado que mide la condición de actividad de las personas. Si exploramos la variable, la PEA estará conformada por las categorías 1 (ocupados) y 2 (desocupados):

attributes(eph_ind_319$ESTADO)
$label
[1] "Condicion de actividad"

$class
[1] "labelled" "integer" 

$labels
Entrevista individual no realizada (no respuesta al cuestionario individual) 
                                                                           0 
                                                                     Ocupado 
                                                                           1 
                                                                  Desocupado 
                                                                           2 
                                                                    Inactivo 
                                                                           3 
                                                          Menor de 10 anios. 
                                                                           4 
eph_ind_319_sel <- eph_ind_319_sel %>%
    filter(ESTADO == 1 | ESTADO == 2)

nrow(eph_ind_319_sel)
[1] 987

Luego de seleccionar la PEA, la base quedará conformada por 987 casos.

2.3.2.5 ¿Hogares o individuos?

Finalmente, una decisión importante que debemos realizar, es si trabajaremos con los individuos u hogares en tanto unidades de análisis. Al igual que con la consideración de la población desocupada y/o inactiva, la respuesta a este interrogante es principalmente teórica. Retomaremos este problema en los próximos capítulos.

De momento, y según nuestros fines metodológicos, podemos señalar que hasta aquí, en la base que estamos construyendo, consideramos a los individuos como unidades de análisis. Una opción posible para trabajar desde los hogares, a partir de información de los individuos, es teniendo en cuenta al jefe/a de hogar como agente representante del grupo familiar. Esta es una práctica frecuente utilizada en los estudios de clases sociales, sobre la cual también existen considerables críticas.

Siguiendo con nuestro ejemplo, filtraremos únicamente a la población que es jefe/a de hogar, buscando consolidar una aproximación a la unidad de análisis “hogar”. Para ello utilizaremos la variable CH03 que releva a la relación de parentesco de los miembros de cada hogar:

attributes(eph_ind_319$CH03)
$label
[1] "Relacion de parentesco"

$class
[1] "labelled" "integer" 

$labels
           Jefe/a  Conyuge / Pareja Hijo/a Hijastro/a       Yerno/Nuera 
                1                 2                 3                 4 
         Nietro/a       Madre/Padre          Suegro/a         Hermano/a 
                5                 6                 7                 8 
 Otros Familiares     No familiares 
                9                10 
eph_ind_319_sel <- eph_ind_319_sel %>%
    filter(CH03 == 1)

nrow(eph_ind_319_sel)
[1] 509

Al centrarnos en les jefes/as de hogares la base quedará conformada por 509 casos.

2.3.3 Ponderación y expansión de la muestra

Tal como hemos señalado en la caracterización de la EPH, nos estamos refiriendo a una encuesta de tipo probabilística que es representativa de la población que reside en los grandes aglomerados urbanos de Argentina. Por ello, para realizar de manera correcta los procesamientos y análisis de datos, la encuesta incluye diversos ponderadores que permiten tanto una recalibración de la muestra, debido a errores procedentes de la sobre o subrepresentación de diversos grupos poblacionales, y también, para expandir el número efectivo de casos al número total poblacional.

La variable PONDERA es la que permite realizar esta operación cuando estamos trabajando con la mayor parte de las variables de la base. La misma es numérica e indica el número de personas u hogares del universo en estudio representada por cada persona u hogar de la muestra (corregidas por no respuesta). Por ejemplo, si queremos conocer el número de población expandida y ponderada de la muestra que hemos estado construyendo, haremos lo siguiente:

eph_ind_319_selP <- eph_ind_319_sel %>%
    tally(PONDERA)

Al ponderar y expandir la muestra que hemos ido construyendo podemos observar que la misma da cuenta de 220.084 casos.

En el caso de los relevamientos posteriores a 2016, encontraremos otros ponderadores que tienen como principal función la corrección en la no respuesta de las variables de ingresos:

  • PONDII para el tratamiento del ingreso total individual(p47t, decindr, adecindr, rdecindr, pdecindr, gdecindr, idecindr).

  • PONDIIO para el ingreso de la ocupación principal (p21, pp06c, pp06d, pp08d1, pp08d4, pp08f1, pp08f2, pp08j1, pp08j2,pp08j3, decocur, adecocur, rdecocur, pdecocur, gdecocur, idecocur).

  • PONDIH para el ingreso total familiar (ITF, decifr, adecifr, rdecifr, pdecifr, gdecifr, idecifr), el ingreso per cápita familiar (IPCF, deccfr, adecifr, rdecifr, pdecifr, gdecifr, idecifr).

2.4 Otras encuestas de hogares para el estudio de la estructura de clases

Una de las principales características que deben cumplir las encuestas de hogares para poder abordar, a través de ellas, la problemática de las clases sociales de acuerdo a distintas opciones teóricas, es que deben relevar una serie de indicadores socio-laborales. Específicamente la condición ocupacional, la ocupación, la categoría ocupacional, entre otras. Asimismo, algunas encuestas especializadas en el estudio de la estructura de clases, cubren dimensiones específicas que permiten el análisis de la autopercepción de clase, la movilidad social o una delimitación más articulada de los posicionamientos de clase.

En este último apartado, presentaremos otras encuestas de hogares que pueden utilizarse para el estudio de las clases sociales y su vinculación con otras problemáticas sociales en la Argentina. Tienen como desventaja que, en su mayoría, no son de tipo continuas, y por ende, su relevamiento permite el abordaje de un momento determinado. Sin embargo, a diferencia de la EPH, nos permitirán el análisis de la estructura de clases y su relación con múltiples aspectos de la realidad social. El listado no es exhaustivo pero reúne a las principales fuentes de información disponibles:

  • Encuesta Nacional sobre la Estructura Social (ENES): es una encuesta de hogares y personas cuyo cuestionario modularizado permitió recabar información sobre distintas cuestiones vinculadas al estudio de las clases sociales: vivienda y hábitat, acceso a bienes, servicios y ayudas de otros, trabajo / trabajo doméstico, movilidad social y autopercepción de clase. La misma fue elaborada por el Programa de Investigación sobre la Sociedad Argentina Contemporánea (PISAC), es abierta a todo público y es parte de una serie de otros relevamientos que se realizarán. Puede encontrarse en https://www.argentina.gob.ar/ciencia/pisac/bases-de-datos.

  • Encuesta Anual de Hogares Urbanos (EAHU): fue un programa nacional del INDEC (entre 2010 y 2014), que se basó en una extensión de la EPH durante los terceros trimestres abarcando aglomerados de más de 2000 habitantes. Mantiene las mismas variables relevadas en la EPH. Puede encontrarse en https://www.indec.gob.ar/indec/web/Institucional-Indec-BasesDeDatos.

  • Encuesta Nacional de Gastos de los Hogares (ENGHo): entre varias de sus funciones, la ENGHo desarrollada por el INDEC permite conocer acerca de los gastos y los ingresos de los hogares y sus características sociodemográficas. De este modo, es una buena fuente para analizar la relación entre el posicionamiento de clase y los patrones de consumo y gasto. Dicho relevamiento se realiza, aproximadamente, cada 10 años, existiendo microdatos desde 1985-1986. La última versión data de 2017-2018 y cuenta con la información socio-ocupacional necesaria para la medición de las clases sociales, condición que la edición de 2012-2013 no cumplía, debido al no relevamiento de la variable ocupación. Puede encontrarse en https://www.indec.gob.ar/indec/web/Institucional-Indec-BasesDeDatos-4.

  • Módulos especiales de la EPH y EAHU: existen distintos módulos que se agregan a la EPH o a la EAHU que permiten el abordaje de problemáticas específicas. En este caso identificamos dos módulos que pueden ser de sumo interés en su relación con la estructura de clases:

  • Encuesta Anual de Hogares (EAH): es una encuesta anual que realiza la Dirección General de Estadísticas y Censos de la Ciudad Autónoma de Buenos desde el año 2002. Al igual que la EPH, dicho relevamiento indaga sobre los aspectos demográficos, la educación, la salud y el mercado de trabajo de la población de la Ciudad de Buenos Aires. A nivel geográfico permite un nivel de desagregación por comuna. Puede encontrarse en https://www.estadisticaciudad.gob.ar/eyc/?cat=93.

  • International Social Survey Programme (ISSP): existen al menos dos relevamientos de dicho programa, para el 2007 y el 2009, que se han realizado en Argentina y en otros países, que permiten el estudio de la estructura de clases y su relación con otros fenómenos: movilidad social, autopercepción de clase, tiempo libre, desigualdades sociales, entre otros. Específicamente, las ondas de 2007 y 2009). Una de las ventajas de estas encuestas es que se insertan en programas internacionales de investigación que permiten la comparabilidad entre países.

Bibliografía citada

Benza, G. (2016). La estructura de clases argentina durante la década 2003-2013. En G. Kessler (Ed.), La sociedad argentina hoy: Radiografía de una nueva estructura social (pp. 111–139). Buenos Aires: Siglo Veintiuno Editores.
Chávez Molina, E., & Sacco, N. (2015). Reconfiguraciones en la estructura social: Dos décadas de cambios en los procesos distributivos. Análisis del GBA según en el clasificador de clases ocupacionales basado en la heterogeneidad estructural 1992-2013. En J. Lindenboim & A. Salvia (Eds.), Hora de balance: Proceso de acumulación, mercado de trabajo y bienestar. Argentina, 2002-2014 (pp. 287–312). Ciudad Autónoma de Buenos Aires: Eudeba.
Dalle, P., & Stiberman, L. (2017). Clases populares en Argentina: Cambios recientes en su composición ocupacional (1998-2015). Encrucijadas - Revista Crítica de Ciencias Sociales, 14(0), 1405. Tomado de http://www.encrucijadas.org/index.php/ojs/article/view/300.
Erikson, R., & Goldthorpe, J. H. (1992). The constant flux : A study of class mobility in industrial societies. Oxford England New York: Clarendon Press ; Oxford University Press.
INDEC. (2003). La nueva Encuesta Permanente de Hogares de Argentina: 2003. Tomado de https://www.indec.gob.ar/ftp/cuadros/sociedad/metodologia_eph_continua.pdf.
INDEC. (2020). Encuesta Permanente de Hogares. Diseño de registro y estructura para las bases preliminares Hogar y Personas. INDEC. Tomado de https://www.indec.gob.ar/ftp/cuadros/menusuperior/eph/EPH_registro_1t20.pdf.
Kozlowski, D., Tiscornia, P., Weksler, G., Rosati, G., & Shokida, N. (2020). Eph: Argentina’s permanent household survey data and manipulation utilities. https://doi.org/10.5281/zenodo.3462677
Minoldo, S., & Born, D. (2019). Claroscuros: 9 años de datos bajo sospecha (EPH en Argentina entre 2007 y 2015). Tomado de https://issuu.com/cieseditora/docs/claroscuros_minoldo-born.
Palomino, H., & Dalle, P. (2012). El impacto de los cambios ocupacionales en la estructura social de la Argentina: 2003-2011. Revista de Trabajo, 10(8), 205–223. Tomado de http://www.trabajo.gob.ar/downloads/estadisticas/2012n10_revistaDeTrabajo.pdf.
Pla, J., Rodríguez de la Fuente, J., & Sacco, N. (2018). Clases sociales y condiciones de vida en el Gran Buenos Aires (2003-2013). Revista Colombiana de Sociología, 41(2), 189–231. https://doi.org/10.15446/rcs.v41n2.64743
Sacco, N. (2019). Estructura social de la Argentina, 1976-2011. Trabajo y Sociedad, (32), 25–51. Tomado de https://dialnet.unirioja.es/servlet/articulo?codigo=6856110.
Solís, P., Chávez Molina, E., & Cobos, D. (2019). Class Structure, Labor Market Heterogeneity, and Living Conditions in Latin America. Latin American Research Review, 54(4). Tomado de https://larrlasa.org/articles/10.25222/larr.442/.
Torrado, S. (1998a). Clases sociales, familia y comportamiento demográfico: Orientaciones metodológicas. En S. Torrado (Ed.), Familia y diferenciación social: Cuestiones de método (1a. ed., pp. 33–61). Buenos Aires: EUDEBA.