Clase 1: Periodismo y Ciencia de datos.

Cristobal Alcazar 28 Sep 201828/09/18 a las 22:01 hrs.2018-09-28 22:01:28

Estimados alumnos/as.

En nuestra primera clase, tratamos los siguientes puntos:

1. La importancia del análisis de datos en el periodismo, los que quieran profundizar más en la conexión entre periodismo y datos les recomiendo el siguiente ted talk How is data journalism changing the newsroom.

2. Definimos la ciencia de datos como el proceso en que los datos se convierten en conocimiento y comprensión. La importancia de este punto es poner énfasis en el proceso y la imagen completa de las etapas que conforman un proyecto de datos, el esquema a continuación ilustra todas las etapas de este proceso que nos referiremos constantemente en el curso como la "tubería de datos".


3. Presentamos las herramientas que utilizaremos durante el taller para implementar un proyecto de datos: lenguaje de programación R y RStudio. Este último, es el programa desde el cual usaremos el lenguaje de programación R para realizar nuestras tareas de análisis y que además cuenta con herramientas para mejorar nuestra productividad al trabajar en proyectos de datos. Pueden descargar ambos programas de manera gratuita y recordar que para utilizar RStudio deben tener instalado primero el lenguaje de programación R. Pueden leer esta sección del texto guía para conocer un poco más de la interfaz de RStudio.

4. Ya entrando en la operativa de programar con R, hablamos del concepto de "paquetes" (ver video), entendiéndolos como una forma de agregar herramientas adicionales a las que ya trae R por defecto (R base). La analogía que empleamos en este punto fue la de comparar R base con un celular nuevo, mientras que los paquetes serían las aplicaciones que descargamos de google store o app store para tener nuevas funcionalidades en nuestro teléfono. En la próxima clase veremos que estas funcionalidades vienen en forma de código y documentación.

5. Se justifica la introducción temprana de esta idea de "paquetes" bajo el motivo de que utilizaremos una colección de paquetes llamada "tidyverse", en que cada etapa de la tubería de datos es abarcada por las funcionalidades de uno o más paquetes de esta colección. La ventaja del "tidyverse" es que todos los paquetes comparten una serie de convenciones que nos facilitaran la forma de pensar y analizar datos. Por ejemplo, la próxima clase iniciaremos con la etapa de visualización de la "tubería de datos" y utilizaremos el paquete "ggplot2" para añadir en nuestra caja de herramientas una forma de crear visualizaciones efectivas.



NOTA: Pueden descargar las diapositivas de la primera clase en el material docente.
Última Modificación 7 Oct 201807/10/18 a las 21:37 hrs.2018-10-07 21:37:07
Vistas Únicas 0
Compartir
Comentarios