Dryscrape

Le scraping de sites Html devient plus compliqué lorsque les sites utilisent Javascript !

Par exemple, mon site de prédilection de test pour les bougies parfumées www.scandles.fr ne retourne pas toutes les informations que je veux lorsqu’il est interrogé par le robot qui alimente www.les-bougies.com  car il faut que l’exécution des scripts Javascript soit terminé avant d’en disposer.

Ryan Michell (cf. articles précédents) recommande d’utiliser Selenium associé à PhantomJS pour le scraping JS.

Pour ce qui me concerne c’est beaucoup d’outils pour pas grand chose. J’ai donc choisi de procéder différemment et de travailler avec Dryscrape

Le problème de Dryscrape, c’est la doc. Les explications sont quasi inexistantes et il n’y pas d’exemples mais comme moi je ne l’utilise que pour lire ma page Html, ça va.

J’ouvre une session, ouvre la page et la transfère à BeautifulSoup

session = dryscrape.Session()
session.visit(pageUrl)
response = session.body()
bsObj = BeautifulSoup(response)