Saltar al contenido

Raspando su primera página web con Python

Empezaremos creando un nuevo archivo de pitón. Como en otros idiomas, como estamos usando bibliotecas externas, necesitamos importarlas al archivo usando la directiva de importación. Aquí importamos tanto lxml como las peticiones.

12de lxml import html, etreeimport requests

pitón

Raspando su primera página web con Python
Raspando su primera página web con Python

Para descargar la página, sólo tenemos que pedirle a la biblioteca de solicitudes que la «consiga». S,o declaramos una variable para los ejemplos llamada $0027página$0027, y el resultado de la llamada a $0027get$0027 se carga en esta variable.

1 página = requests.get("http://www.howtowebscrape.com/examples/simplescrape1.html")

pitón

La página de la variable tiene varias propiedades – la que nos interesa en esta guía es el $0027contenido$0027. Esta propiedad contiene el HTML en bruto de la página que estamos descargando y se presenta en formato de cadena. Podemos imprimirla para ver lo que hemos recibido:

1print(page.content)

pitón

En su estado bruto, el contenido que acabamos de recibir se ve así:

Podemos ver las etiquetas HTML allí, pero también tenemos un «ruido» extra que, en este caso, consiste en caracteres de escape (r
En teoría, eso es todo, hemos completado la primera etapa de la destrucción de la web – aunque mucho más sucede bajo el capó, la biblioteca de solicitudes hace que sea sencillo descargar una página web de código HTML simplemente emitiendo el comando «GET».