2.2 Comenzando a utilizar la EPH

Existen diversas formas de descargar y abrir las bases de micro-datos de la EPH desde R. En primer lugar, a partir de la descarga manual desde la web de INDEC. Este método permite acceder a todas las bases de la EPH disponibles oficialmente, desde 1974 a la actualidad. En segundo lugar, de acuerdo a algún programa. En este capítulo revisaremos el uso del paquete eph (Kozlowski et al., 2020), que nos simplifica el trabajo de acceso a micro-datos, así como el armado de pools de datos. Temporalmente, su única limitación es que sólo podemos descargar las bases a partir de la primera onda de 1996. Utilizaremos las siguientes librerías de R:

library(tidyverse)
library(eph)
library(haven)
library(foreign)
library(rmarkdown)

2.2.1 El “método clásico”

2.2.1.1 Bases 2016-2020

Dependiendo del período que necesitemos analizar, encontraremos que las bases a descargar se encuentran en distintos formatos de archivo. Como ejemplo, podemos comenzar por una primera prueba descargando la base correspondiente al tercer trimestre de 2019 en formato .txt (link de descarga). El archivo .zip que descarguemos contendrá un archivo .txt referido a la base de individuos (Usu_individual_T319.txt) y otro referido a la base de hogares (Usu_hogar_T319.txt).

Como buena práctica en la organización de la información que vamos utilizando, es recomendable alojar los archivos (en este caso las bases que descarguemos) en la carpeta del proyecto con el que estemos trabajando en RStudio (en este caso, le hemos puesto el nombre “bases”). En este caso utilizaremos el comando read.csv2, ya que nos permite importar archivos de texto plano delimitados. Señalamos que el delimitador es ; y que el archivo cuenta en su línea superior con los nombres de las variables (header = TRUE):

eph_ind_319 <- read.csv2("bases/Usu_individual_T319.txt", header = TRUE, sep = ";",
    dec = ",")

Observando los primeros 15 registros de la base podemos dar cuenta que la misma se ha cargado correctamente y explorar las distintas variables que contiene.

La base cuenta con 57.229 registros-filas (individuos) y 177 columnas (variables):

nrow(eph_ind_319)

[1] 57229

ncol(eph_ind_319)

[1] 177

2.2.1.2 Bases 2003-2015

En el caso de las bases de microdatos pertenecientes al período 2003-2015, podemos encontrarlas en formato .sav (SPSS) y .dta (STATA). Ambos formatos pueden ser importados desde R a través de la librería haven.

En este ejemplo utilizaremos la base de hogares del cuarto trimestre de 2014 (Hogar_t414) y la descargaremos en formato .sav.

eph_hog_414 <- read_sav("bases/Hogar_t414.sav")

Una de las ventajas de importar los datos desde el formato .sav o .dta es que generalmente están etiquetadas las variables. En el caso de la importación de archivos .txt o .csv esto no sucede.

2.2.1.3 Bases 1974-2002

Finalmente probaremos descargar la base más antigua que se encuentra disponible en la página web del INDEC. Nos referimos a los microdatos de la base usuaria de individuos del año 1974 para el Gran Buenos Aires (link de descarga).

Como hemos señalado, las bases anteriores a 2003 se encuentran únicamente en formato .dbf. Para poder importarlas en R necesitaremos instalar y llamar a la librería foreign.

eph_ind_74 <- read.dbf("bases/PERSO_US.DBF")

En la siguiente tabla podemos ver los primeros 15 registros de la base:

2.2.2 El paquete `eph`

El paquete eph es una gran herramienta para usuaries de R que utilicen con frecuencia la EPH. Permite no solo la descarga de las bases oficiales del INDEC, sino que también, entre varias funciones, nos habilita a incorporar las etiquetas a las variables y categorías, organizar pools de datos en panel o calcular y estimar tasas de pobreza.

En este manual, aprenderemos a descargar las bases de la EPH a través del paquete y armar un pool de datos, en el que dispondremos de distintas bases unidas, para diversos tipos de análisis.

En primer lugar probaremos descargar la base individual de la EPH para el 4to trimestre de 2019, a través de la función get_microdata. Vale aclarar que, al momento de escritura de este manual, únicamente pueden descargarse las bases posteriores al año 1996:

eph_ind_419 <- get_microdata(year = 2019, trimester = 4, type = "individual")

Como puede observarse, la función es sumamente intuitiva. Únicamente debemos modificar los parámetros year, trimester y type, para descargar la información deseada. En el caso de la EPH puntual, en lugar de usar el parámetro trimester utilizaremos wave, que acepta los valores 1 y 2. En este caso, creamos el objeto eph_ind_419 para guardar la base descargada.

Por default, la función nos devuelve todas las variables, si queremos realizar alguna selección de variables podríamos utilizar el parámetro vars. Aquí un ejemplo:

eph_estado <- get_microdata(year = 2019, trimester = 4, type = "individual", vars = c("CODUSU",
    "NRO_HOGAR", "ANO4", "ESTADO"))

names(eph_estado)

[1] "CODUSU"    "NRO_HOGAR" "ANO4"      "ESTADO"

En el ejemplo anterior, elegimos únicamente descargar las variables CODUSU, NRO_HOGAR, ANO4 y ESTADO. Dicho parámetro es muy útil para descargar solo aquella información que realmente necesitamos y no ocupar la memoria RAM de datos innecesarios. Sobre todo cuando armemos pools de datos y las bases construidas sean de un gran peso, el parámetro vars será de una gran utilidad.

Otra utilidad importante del paquete es que nos permite etiquetar las variables y las categorías automáticamente. Para ello se utiliza la función organize_labels:

eph_ind_419 <- organize_labels(eph_ind_419, type = "individual")

Por ejemplo, visualizaremos las etiquetas de la variable ESTADO:

attributes(eph_ind_419$ESTADO)

$label
[1] "Condicion de actividad"

$class
[1] "labelled" "integer" 

$labels
Entrevista individual no realizada (no respuesta al cuestionario individual) 
                                                                           0 
                                                                     Ocupado 
                                                                           1 
                                                                  Desocupado 
                                                                           2 
                                                                    Inactivo 
                                                                           3 
                                                          Menor de 10 anios. 
                                                                           4

La variable se encuentra etiquetada como “Condición de actividad”. El tipo (class) de variable es labelled e interger, ya que si bien la variable es numérica entera también se encuentra etiquetada (“labelled”). Finalmente podemos ver las cuatro categorías de la variable: 0) Entrevista individual no realizada; 1) Ocupado; 2) Desocupado; 3) Inactivo; 4) Menor de 10 años.

Finalmente, la función get_microdata también nos permite descargar múltiples bases de la EPH y que luego podemos pegar a los fines de poder trabajarlas longitudinalmente. Mostraremos un ejemplo descargando la selección de variables que hemos realizado anteriormente, pero para todos los cuartos trimestres de los años 2017-2019:

eph_estado_1719 <- get_microdata(year = 2017:2019, trimester = 4, type = "individual",
    vars = c("CODUSU", "NRO_HOGAR", "ANO4", "ESTADO"))  #Descargo las bases

Como advertencia, al descargar un número importante de bases (y de variables), el proceso puede tornarse lento y, al mismo tiempo, su resultado satisfactorio puede depender de la cantidad de memoria RAM disponible que tengamos al momento.