Skip to main

Primeros pasos en el análisis de datos usando R

Te compartimos el video del webinar "Primeros pasos en el análisis de datos usando R", que estuvo a cargo de Daniela Vázquez. Podrás encontrar todas las indicaciones para realizar el ejercicio práctico, así como una guía de las principales dudas elaborada por Daniela.


Para el ejercicio práctico deberás crearte una cuenta en https://rstudio.cloud/ y verificarla a través del email que recibirán luego de creada (si se loguearon con Gmail o GitHub no hace falta este paso).

En este link te dejamos la presentación utilizada por Daniela durante el webinar.

Aquí podrás ver el script con los ejercicios resueltos.

 

Dudas surgidas durante el taller y las respuestas de Daniela

Los 2 tipos de fallos que se dieron con mayor frecuencia durante el webinar:

1 - El primero al crear la cuenta.

Al hacer click en "Sign Up", hay 3 opciones para crear la cuenta: una generando un usuario y contraseña, en cuyo caso llega un mail luego y hay que verificar la cuenta. Después están las opciones de "Sign up with Google" y "Sign up with GitHub". Si ya tienen cuenta en Google (por ejemplo el correo de Gmail) o en GitHub, esta opción puede ser más sencilla porque se evitan el paso de la verificación de la cuenta de correo de la primera opción.

Si después de leer esto siguen con inconvenientes, no duden en contactarme y lo vemos.

2 - Al correr "devtools::install_github("cienciadedatos/datos")", a algunos les salió el siguiente error:

Error: Failed to install 'unknown package' from GitHub:

  HTTP error 403.

  API rate limit exceeded for 54.204.34.9. (But here's the good news: Authenticated requests get a higher rate limit. Check out the documentation for more details.)

¡Esta es una genial oportunidad de buscar el error y ver qué quiere decir! Copiando y pegando "API rate limit exceeded for" en el navegador Google Chrome, pedí que me traduzca el resultado al español y encontré esto: https://developer.github.com/v3/#rate-limiting.

Lo que sucedió es que el paquete "datos" está en GitHub y no en CRAN (que es donde en general se encuentran los paquetes más comunes, y donde no tendríamos este problema), y todos nosotros estábamos descargándolo al mismo tiempo. Como estábamos trabajando en la nube, la "IP" que es algo así como un identificador de la computadora que estamos usando, era el mismo para todos y GitHub tiene límites para las operaciones que son de la misma IP. Entonces lo que había que hacer era esperar un ratito y probar de nuevo.

Les pido disculpas porque es un error que no me imaginé que pudiera pasar. La próxima lo voy a tener en cuenta para que no suceda de nuevo.

Otras dudas del contenido del taller:

Si ya tengo RStudio instalado en mi computadora de escritorio, ¿cambia en algo? No, no cambia. Pueden copiar y pegar el script que lo dejé en dv.uy/script_taller y ahí tienen lo que hicimos.

Al ejecutar la linea 16 me da este error: Error in library(datos) : there is no package called ‘datos’. Este error sucede cuando no ejecuté las líneas anteriores (install.packages("devtools"); devtools::install_github("cienciadedatos/datos"), en cuyo caso tengo que ejecutarlas, o porque les dio error al ejecutarlas, pudiendo ser por lo que está al principio del documento.

No instala ningún paquete, da el siguiente error: 
> install.packages("tidyverse")

Installing package into ‘/home/rstudio-user/R/x86_64-pc-linux-gnu-library/3.6’

(as ‘lib’ is unspecified)

Esto no es un error, es un mensaje nada más. Si esperan un ratito sigue. Cuando es un error empieza con "Error:".

¿La base millas es una base que viene en R como ejemplo? Si usamos la versión del libro y ejemplos en inglés, es una base que está en el paquete ggplot2. Como estamos usando una versión traducida al español para el libro en español, está en un paquete diferente que se llama "datos", que ahora está en GitHub pero luego va a estar en CRAN.

¿Existen herramientas o una forma de publicar las gráficas? Si quiero guardar los gráficos generados en la nube en mi computadora, puedo hacer los pasos que especifico con imágenes.

Primero ponen “Export” y “Save as Image…”. Esto es igual que en la versión de escritorio.

Taller

Ahí le ponen el nombre que quieran. Después van a la pestaña “file”, seleccionan la imagen y van a “more”. Ahí ponen “Export”.

Taller

A continuación aparece el siguiente cuadro y ahí le ponen el nombre que quieran para descargarlo.

Taller

Si lo que queremos es que queden publicados en algún lugar de la web, existe la posibilidad de usar RStudio Connect para gráficos, acá les dejo un link (en inglés) que les puede servir: https://docs.rstudio.com/connect/1.5.4/user/index.html#plots-and-graphs.

Cuando quiero ejecutar un gráfico me dice que no encuentra la función ggplot. Seguramente no ejecuté las líneas anteriores (install.packages("tidyverse"); library("tidyverse")), en cuyo caso tengo que ejecutarlas, o porque les dio error al ejecutarlas. Ahí habría que ver qué pasó en el caso concreto.

¿En esta versión es posible guardar el script en el escritorio? Para hacerlo hay que seguir los mismos pasos que describo para guardar el gráfico, pero en el panel "file" en lugar de marcar la imagen, marcar "script.R".

¿Se puede elegir qué color darle a cada valor? Por ejemplo darle el color amarillo a la tracción en las 4 ruedas. Se puede hacer pero no es trivial. Acá les dejo un link a una pregunta de StackOverflow en inglés, donde hay algunas ideas de cómo hacerlo: https://stackoverflow.com/questions/6919025/how-to-assign-colors-to-categorical-variables-in-ggplot2-that-have-stable-mappin

Si les surgen dudas adicionales no duden en contactarme en Twitter: @d4tagirl.