Saltar al contenido

Raspando su primera página web con Python

Sección Introducción Transcripciones

Resumen del curso

Raspando su primera página web con Python
Raspando su primera página web con Python

Hola. Me llamo Janani Ravi, y bienvenidos a este curso de Raspado de su primera página web con Python. Un poco sobre mí, tengo una maestría en Ingeniería Eléctrica de Stanford y he trabajado en compañías como Microsoft, Google y Flipkart. En Google fui uno de los primeros ingenieros que trabajó en la edición colaborativa en tiempo real en Google Docs, y tengo cuatro patentes de sus tecnologías subyacentes. Actualmente trabajo en mi propia empresa, Loonycorn, un estudio de contenidos de vídeo de alta calidad. El Web scraping es una técnica importante que se utiliza ampliamente como primer paso en muchos flujos de trabajo en la minería de datos, la recuperación de información y el aprendizaje automático basado en texto. En este curso, obtendrás la habilidad de aplicar diferentes técnicas de scraping, incluyendo «Beautiful Soup» y «Scrapy». En primer lugar, aprenderá y utilizará varias bibliotecas de clientes HTTP, como solicitudes, httplib2 y urllib para descargar contenido HTML. A continuación, descubrirás cómo Beautiful Soup es una biblioteca de Python extremadamente popular que funciona mejor que las expresiones regulares de manera importante. Verás cómo Beautiful Soup arregla un HTML mal formado y construye un bonito árbol de análisis que puede ser recorrido y consultado. Finalmente, agregarás a tu kit de herramientas el conocimiento de Scrapy, que es un completo marco de trabajo de web scraping que combina los pasos de recuperación y análisis de contenido web y lo hace a escala de producción. Cuando termine este curso, tendrá las habilidades y conocimientos para identificar las fortalezas relativas y los casos de uso de las diferentes tecnologías de recuperación y raspado de la web, como expresiones regulares, Beautiful Soup y Scrapy.