BS4 – Introduction

La plupart des tests présentés ici sont inspirés du livre : Web Scraping with Python en vente chez O’Reilly et aussi disponible au formats Pdf et Epub à cette adresse.

Je travaille sur Mac avec OS El Capitan et mon Python est en version 2.7 (ce qui explique que le code de mes tests est un peu différent de celui présenté par l’auteur du livre)

Mon site de test est mon moteur de recherche www.les-bougies.com et quand je veux accéder à un site marchand, je choisis généralement www.scandles.fr 

Evidemment, libre à vous d’utiliser d’autres URL/sites pour tester vos scripts.

from urllib import urlopen

html = urlopen(« http://www.les-bougies.com »)

print(html.read())

urllib est intégré de base à Python. Habituellement j’utilise Requests qui intègre urllib dans la version Python 3 – mais pour rester le plus fidèle aux scripts donnés en exemple dans le livre, je resterai avec urllib  dans mes premiers exemples.

Si vous exécutez le script ci-dessus, vous afficherez le code html de la première pas de www.les-bougies.com

Le prochain post expliquera comment installer BS4

Laisser un commentaire