Contourner les obstacles au scraping

00:00:00 :Beaucoup de sites web aujourd'hui fonctionnent avec des frameworks JavaScript, les plus connus étant React ou encore Vue.js,qui permettent le rechargement dynamique du contenu sur une page.
00:00:09 :Mais même sans l'utilisation de ces frameworks, qui nécessitent une utilisation intensive de JavaScript pour afficher le contenu d'un site web,on ne peut pas, avec une simple requête, récupérer toutes les ressources d'un site web avec un script, comme on le fait avec un navigateur.
00:00:22 :Par exemple, le module request avec Python, il est principalement utilisé afin d'effectuer des requêtes pour récupérer le contenu des pages web,mais il ne permet pas l'évaluation du JavaScript ou encore l'application des styles CSS.
00:00:33 :Lorsque vous utilisez le module request, vous demandez simplement au serveur web de vous fournir le contenu de la page web qui est spécifié par l'URL que vous lui avez donné.
00:00:41 :Le serveur vous renvoie ainsi tout simplement le code HTML de la page à votre demande.Vous allez donc récupérer ni plus ni moins qu'une grande chaîne de caractères qui va contenir le code source de la page à l'adresse indiquée.
00:00:52 :Mais si on regarde de plus près dans ce code source, on distingue des balises HTML qui contiennent des liens vers d'autres URL qui sont nécessaires au bon fonctionnement et à l'affichage du site.
00:01:01 :Généralement, dans ces ressources, on trouve des feuilles de style, les fichiers CSS, des fichiers JavaScript qui permettent d'avoir de l'interactivité,donc les fichiers .js et également les images.
00:01:11 :Mais lorsque vous visitez une page web avec un navigateur, le processus est différent.Vous effectuez comme avec le module request de votre côté une requête unique vers une URL.
00:01:20 :Le navigateur reçoit le code HTML de la page, mais il interprète également son contenu pour identifier les références aux ressources externes.Il va ainsi effectuer automatiquement des requêtes supplémentaires pour récupérer ces ressources qui sont nécessaires au fonctionnement du site.
00:01:35 :Le navigateur utilise ensuite toutes ces ressources pour rendre la page de manière appropriée en appliquant les styles CSS, en affichant les images, en exécutant le JavaScript, etc.
00:01:44 :Et c'est de cette façon que vous avez dans votre navigateur un site 100% fonctionnel, même si de votre côté vous n'avez fait qu'une seule requête.
00:01:51 :C'est le navigateur qui se charge de repérer les requêtes supplémentaires à faire et de les faire de son côté pour afficher le site web dans son intégralité.
00:01:59 :Pour vous montrer ce que ça donne en pratique, vous pouvez ouvrir n'importe quel site web.Si je fais un clic droit et que je clique sur Inspect pour ouvrir les outils de développeur, dans l'onglet Network ici, si je réactualise la page, on va voir toutes les requêtes qui sont effectuées.
00:02:12 :Donc vous voyez qu'avec notre simple requête unique que l'on fait vers cette URL, on a tout ça en arrière-plan qui va être récupéré à partir des différentes balises de liens à l'intérieur du HTML.
00:02:22 :Donc on a des images, on a des fichiers CSS, on a le code source du fichier HTML, donc ce fameux fichier qu'on récupère avec Request, mais qui contient, comme vous le voyez ici, toutes ces balises links qui font le lien vers tous les autres fichiers qu'on va récupérer.
00:02:34 :Par exemple, le style ici, les images qui sont également affichées et les fichiers JavaScript.Et vous pouvez également, si vous le souhaitez, bloquer ces requêtes. Je peux faire un clic droit sur n'importe laquelle de ces requêtes et cliquer ici sur Block Request URL.
00:02:47 :J'ai un petit panneau qui va s'ouvrir ici et je peux bloquer certaines URLs. On peut même bloquer avec des patterns.Par exemple, je vais bloquer tous les fichiers de type jpg et vous allez voir que si je rafraîchis la page, cette fois-ci, on n'a plus aucune image qui est affichée puisque toutes les requêtes vers les fichiers jpg ont été bloquées.
00:03:02 :Et si je rajoute également un bloc vers les fichiers CSS et les fichiers JavaScript, vous allez voir qu'on va se retrouver peu ou prou avec le même résultat que celui qu'on aurait en utilisant directement le module Request pour récupérer uniquement le fichier HTML.
00:03:15 :Donc vous voyez que sans le CSS, sans le JavaScript et les images, le site web a toujours des informations, mais il n'est plus du tout aussi fonctionnel que ce qu'on avait auparavant.
00:03:23 :Et donc c'est pour cette raison que dans certains cas, vous allez devoir vous-même faire ces requêtes.Par exemple, dans le cas des images, si je veux récupérer les images, il faut que j'identifie les liens vers les images dans le HTML pour ensuite aller télécharger ces images.
00:03:34 :Donc pour aller ici, par exemple, chercher sur cette URL le contenu de l'image et la télécharger sur mon disque.Et dans le cas du JavaScript, c'est pour cette raison qu'on va utiliser des navigateurs qu'on appelle Headless, qui sont des navigateurs qui peuvent rouler en arrière-plan, mais qui vont quand même avoir cette interprétation de tout ce qu'on a vu ici.
00:03:49 :Donc le CSS, le JavaScript, etc. On va voir ça dans les prochaines parties, ne vous inquiétez pas.Et c'est avec ces navigateurs qu'on va pouvoir également interagir avec les sites web, pour par exemple, cliquer sur un bouton, naviguer sur une page et récupérer des données exactement comme on le ferait avec un humain.
00:04:02 :Donc c'est de cette façon qu'on va contourner ces blocages techniques qu'on pourrait avoir avec une requête simple, comme on le fait avec le module Request.

Les blocages techniques

Rechercher sur le site

Les blocages techniques

Inscris-toi

Rechercher sur le site