Saltar al contenido

Transformaciones de datos con el Cerdo Apache

Sección Introducción Transcripciones

Resumen del curso

Transformaciones de datos con el Cerdo Apache
Transformaciones de datos con el Cerdo Apache

Hola, me llamo Janani Ravi, y bienvenidos a este curso sobre la realización de transformaciones de datos usando el Cerdo Apache. Me presentaré primero. Tengo una maestría en ingeniería eléctrica de Stanford, y he trabajado en compañías como Microsoft, Google y Flipkart. En Google fui uno de los primeros ingenieros que trabajó en la edición colaborativa en tiempo real en Google Docs, y tengo cuatro patentes de sus tecnologías subyacentes. Actualmente trabajo en mi propia empresa, Loonycorn, un estudio de contenido de video de alta calidad. Pig es un motor de código abierto, que forma parte del ecosistema de tecnologías Hadoop. Pig es muy bueno trabajando con datos que van más allá de las bases de datos tradicionales o almacenes de datos. Pig puede trabajar bien con datos faltantes, incompletos o inconsistentes, que no tienen un esquema. Pig tiene su propio lenguaje para expresar las manipulaciones de datos, que es el Latín Pig. Este curso comienza desde lo más básico. Te da una visión general de Pig, te muestra cómo instalar y ejecutar Pig en tu sistema, y te hace empezar a trabajar con el shell Grunt. Verás cómo puedes cargar datos en relaciones en Pig, almacenar relaciones transformadas en archivos mediante comandos de carga y almacenamiento. El enfoque principal del curso se centra en cómo los datos pueden ser transformados para hacerlos más útiles para el análisis. Este curso cubrirá el comando foreach generate, junto con una serie de funciones de evaluación y filtrado. También trabajará en un conjunto de datos del mundo real que analizará los accidentes en la ciudad de Nueva York usando los datos de colisiones del sitio web de la ciudad de Nueva York. Y finalmente, cubriremos construcciones avanzadas como el foreach anidado, y también daremos un breve vistazo al mundo de MapReduce, el modelo de programación paralela que impulsa a Hadoop.