9.2 Workflow
Esta sección trata sobre el flujo de trabajo (workflow) en RStudio
. Existen muchas cosas sobre el trabajo en R
que los encuentran confusas. Sin embargo, hay formas en las que se pueden simplificar problemas: sistematizando una buena práctica del flujo de trabajo desde el principio.
9.2.1 Proyectos R Studio
Una de las cuestiones más comunes que generan dificultades en R
, es que no provee las facilidades de un software estadístico estándar con el cual apuntar y hacer clic dentro de la misma interfaz. Específicamente se dificulta el acceso a los archivos y el guardado utilizando rutas de archivo, en especial cuando esas rutas (paths
) son extensas.
La forma más sencilla de minimizar esta dificultad es trabajar con lo que se llama un documento de tipo Proyecto de RStudio. Este es el primer paso a seguir: usar los archivos de proyecto de RStudio
. Antes que nada, ¿Qué es un archivo de proyecto de RStudio
?
- Es un archivo creado por
RStudio
que tiene una extensión de.Rproj
, y esencialmente lo que hace es almacenar información sobre la carpeta que lo contiene. Así que para guardar este archivo de proyecto dentro de una carpeta en particular, hay que tener en cuenta que dentro del proyecto se guardará información sobre la carpeta que se encuentra en su sistema de archivos, y también guardará información sobre el estado anterior del proyecto. Cuando se genera un archivo de proyecto, primero se abrirá enRStudio
y de este modo se podrá acceder a la información sobre la carpeta en la que se encuentra almacenado este proyecto.
9.2.2 Organización
Una de los aspectos clave es que, al trabajar con archivos de proyecto, es necesario organizarse. Una forma sencilla de trabajar con RStudio
es tener un proceso pre-establecido por el que pasar cada vez que se inicie un nuevo proyecto. El proceso que se sugiere en este libro consiste en:
Crear un nuevo proyecto de
RStudio
, por el cual se generará una carpeta dentro del directorio local.Luego, dentro de esa carpeta crear una sub-carpeta llamada ‘datos’. Ahí es donde se guardarán todos los archivos de datos relacionados con el proyecto.
También, crear una carpeta llamada
r_docs
que es donde se guardan todos los documentos deR
y deRStudio
.En caso que haya imágenes o medios asociados con el proyecto, se aconseja generar una carpeta llamada ‘imágenes’.
En resumen, siguiendo el tipo de organización aquí propuesta, hay un directorio donde se guardan todos los proyectos de R Studio
. Tal como se aclaró antes: la información del proyecto se almacena dentro de una carpeta, donde a su vez hay tres carpetas más: una donde se encuentran los archivos de datos
, otra donde guardar todos los documentos
de R
y RStudio
, y una última carpeta para las imágenes
. Además, dentro de esa carpeta grande habrá un archivo de RStudio Project
, con el nombre que el usuario le haya asignado.
9.2.3 Utilidad
¿Por qué este procedimiento de organización del flujo de trabajo es útil? Porque respetando la estructura de las carpetas, es posible encontrar los archivos de manera sencilla, optimizando tiempo y espacio. Esta estructura se puede ver en la ruta del archivo, que será similar a /Usuarios/Nombreusuario/Documentos/RProjects…etc. Esta es una ruta a un archivo de datos que se almacena en el disco duro, en la unidad correspondiente, que puede ser C
o U
, por ejemplo.
Desventaja 1
Dentro de una carpeta llamada Usuarios
, ingresando a una carpeta denominada “tunombre” (aquí cada uno puede colocar su propio nombre de usuario), dentro de la carpeta llamada “Documentos” y luego, dentro de otra carpeta, se encuentra el nuevo proyecto creado. En esta última, finalmente, está la subcarpeta de “datos”. Por lo tanto, cada vez que se desee acceder a ese archivo de datos, tanto para cargarlo como guardarlo, se debe llamar a esa gran cadena de texto, que es la ruta al archivo, lo cual puede resultar complicado.
Desventaja 2
Si se cambia de computadora donde fue creado un archivo de R
a otra que no tenga el sistema de archivos que se ha descrito en este libro, entonces se debe reescribir todo el código de R
para poder acceder al archivo deseado. Esto se debe a que podría estar guardado en una ubicación diferente a la de mi archivo local. Al usar un proyecto de RStudio
se puede utilizar lo que se conoce como “rutas relativas”. También, hay un camino mucho más corto que implica colocar dos puntos y una barra al inicio de la ruta. Los puntos representan la carpeta del proyecto que se encuentra en una ubicación diferente a la del archivo que se está editando. Dondequiera que esa carpeta esté almacenada, no es necesario saberlo porque el proyecto de RStudio
se redirige automáticamente allí cuando se implementan los puntos. Todo lo que hay que hacer es poner los puntos seguidos de una barra, luego el nombre de la carpeta de datos y de nuevo barra, seguido el nombre del archivo al que se intenta acceder. Por ejemplo, ../nombrecarpeta/nombrearchivo.Rmd
De seguido, se presenta un segundo ejemplo utilizando la estructura de carpetas propuesta. Si se almacenan los archivos de RStudio
dentro de una carpeta llamada “docs_r”, es necesario salir de la misma y luego volver a “mis_datos”. Eso es lo que los puntos dobles hacen: subir de nivel. En concreto, las acciones que lleva a cabo son salir de ‘docs_r’ e ir a la carpeta de datos. Sin embargo, cuando hay muchos archivos, esto puede resultar un poco engorroso.
9.2.4 Crear un Proyecto de RStudio
Lo primero es seleccionar un directorio en alguna carpeta local del ordenador.
Luego abrir
RStudio
e ir al menú “Archivo”, hacer clic en “Nuevo Proyecto” y así se obtendrá un cuadro de diálogo. Se puede crear un nuevo directorio con el proyecto o si ya existe un directorio que se pueda convertir en un proyecto deRStudio
, también se puede seleccionar un directorio existente.En siguiente paso es seleccionar en la opción superior para generar un proyecto, y luego crear el proyecto nuevo como un subdirectorio.
Lo siguiente es buscar dónde guardar este proyecto. Si se desea mantener todos los proyectos juntos es necesario crear una carpeta llamada, por ejemplo, “proyectosr” donde colocar todos los proyectos de
R
. Como nombre del directorio se solicita el nombre del archivo de proyecto deRStudio
, en este caso puede llamarse “primer_proyecto”.Como resultado, a pesar de que nada parece cambiar, en la pestaña de archivos (margen inferior), se notifica que uno se encuentra en la carpeta o directorio seleccionados. En este caso, dentro de la carpeta de todos los proyectos de
R
y, a su vez, en la carpeta llamada “primer_proyecto” que es como se ha nombrado a este proyecto. Se puede navegar dentro del proyecto desde aquí.
Recordatorio
R
distingue entre mayúsculas y minúsculas, por lo que siempre es recomendable escribir todo en minúsculas.
9.2.5 Crear un archivo de R
Lo siguiente es crear un documento en el que se quiere trabajar. En este libro se usa el ejemplo de un archivo de RMarkdown
, aunque existen otros tipos de archivos de R
. Uno de los más utilizados es el R script
, equivalente a una sintaxis de SPSS o do-file de STATA.
Crear un nuevo archivo de tipo
R Markdown
. Al seleccionar sobre el botón de crear archivo (margen superior izquierdo, identificado con el signo “+” en color verde), aparecerá una ventana. Allí, se coloca el título al documento, que se puede llamar “primer_documento”, y también el nombre del autor. No es necesario poner el nombre del autor, se puede dejar ese espacio en blanco. Y por último, se selecciona el “Formato de salida”, que crea el archivo deR Markdown
.Es posible ver que en el nuevo documento de
R Markdown
ya hay texto, que es un ejemplo de documento, el cual se puede borrar en su totalidad y cargar la información que se desee. En un documento deR Markdown
, las áreas grises son lo que se conoce como “fragmentos de código” o chunks. Allí es donde se dan instrucciones aR
, como comandos o fórmulas, sobre las que trabaja el programa.Fuera, en el área blanca, se puede escribir texto. Se presenta un ejemplo simple, en el que se inserta un fragmento de código de varias maneras.
También hay atajos de teclado que puedes usar:
En resumen, cuando haya un nuevo proyecto en el que se esté trabajando, se recomienda generar un nuevo archivo de proyecto en RStudio
. Dentro de esa carpeta, generar otra carpeta donde almacenar los datos (que aquí se ha llamado “r_docs”), como los documentos de R Markdown
o R script
.