Sección Introducción Transcripciones
Resumen del curso
Hola, mi nombre es Janani Ravi, y bienvenidos a este curso de Transmisión Estructurada en Apache Spark 2. Un poco sobre mí, tengo una maestría en ingeniería eléctrica de Stanford, y he trabajado en compañías como Microsoft, Google y Flipkart. En Google, fui uno de los primeros ingenieros que trabajó en la edición colaborativa en tiempo real en Google Docs, y tengo cuatro patentes de sus tecnologías subyacentes. Actualmente trabajo en mi propia empresa, Loonycorn, un estudio de contenido de video de alta calidad. En este curso, nos centramos en el uso del marco de datos tabulares para trabajar con conjuntos de datos en flujo y delimitados, utilizando las mismas API que trabajan con datos delimitados en lotes. Empezamos por comprender cómo funciona el streaming estructurado y qué lo hace diferente y más potente que las aplicaciones de streaming tradicionales. Entenderemos la arquitectura básica de streaming y las mejoras incluidas en el streaming estructurado, permitiéndole reaccionar a los datos en tiempo real. Comenzaremos con los disparadores para evaluar los resultados de la transmisión, y los modos de salida para escribir los resultados en un archivo o en la pantalla. Entonces veremos cómo podemos construir tuberías de flujo usando Spark. Estudiaremos las agregaciones de tiempo de evento, las funciones de agrupamiento y ventanas, y cómo realizamos operaciones de unión entre los datos de lote y de flujo. Trabajaremos con flujos reales de Twitter, y realizaremos análisis sobre las tendencias de los hashtags en Twitter. Luego veremos cómo el procesamiento de los flujos de Spark se integra con los sistemas de suscripción de los editores distribuidos de Kafka. Ingresaremos los datos de Twitter de un productor de Kafka y los procesaremos usando el Spark streaming. Al final de este curso, debería sentirse cómodo realizando el análisis de los datos del flujo usando el motor de análisis distribuido de Spark y su API de flujo estructurado de alto nivel.