9 Introducción
En esta parte del libro, aprenderás cómo manejar o “domar” datos (data wrangling, en inglés): el arte de tener tus datos en R de una forma conveniente para su visualización y modelado. Si bien en español también se suele hacer referencia a esta etapa como manipulación de datos, hemos mantenido también la traducción literal ya que, como se señala en la introducción, la noción de domar (wrangling) apunta a lo difícil que puede ser a veces este proceso. La doma de datos es muy importante: ¡sin ella no puedes trabajar con tus propios datos! Este proceso tiene tres partes principales:
Esta parte del libro continúa de la siguiente forma:
En [Tibbles] aprenderás sobre la variante de data frame que usamos en este libro: el tibble. Conocerás qué los hace diferentes de los data frames comunes y cómo puedes construirlos “a mano”.
En [Importación de datos] aprenderás cómo traer tus datos del disco hacia R. Nos enfocaremos en los formatos rectangulares de texto plano, pero daremos referencias a paquetes que ayudan con otros tipos de datos.
En [Datos ordenados] aprenderás una manera consistente de almacenar tus datos que facilita la transformación, la visualización y el modelado. Aprenderás los principios subyacentes y cómo poner tus datos en una forma ordenada.
La doma de datos también abarca la transformación de los mismos, algo sobre lo que ya has aprendido un poco. Ahora nos enfocaremos en nuevas habilidades para cuatro tipos de datos específicos que encontrarás frecuentemente en la práctica:
La sección [Datos relacionales] te dará herramientas para trabajar con múltiples conjuntos de datos interrelacionados.
[Cadenas de caracteres] te introducirá en las expresiones regulares (regular expressions), una herramienta poderosa para manipular cadenas de caracteres (strings).
En [Factores] veremos cómo R almacena los datos categóricos. Los factores se utilizan cuando una variable tiene un conjunto fijo de posibles valores, o cuando quieres usar una cadena de caracteres en un orden distinto al alfabético.
[Fechas y horas] te dará herramientas clave para trabajar con fechas y fecha-horas.