Les blocages techniques
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte00:00:00 :Beaucoup de sites web aujourd'hui fonctionnent avec des frameworks JavaScript, les plus connus étant React ou encore Vue.js,qui permettent le rechargement dynamique du contenu sur une page.
00:00:09 :Mais même sans l'utilisation de ces frameworks, qui nécessitent une utilisation intensive de JavaScript pour afficher le contenu d'un site web,on ne peut pas, avec une simple requête, récupérer toutes les ressources d'un site web avec un script, comme on le fait avec un navigateur.
00:00:22 :Par exemple, le module request avec Python, il est principalement utilisé afin d'effectuer des requêtes pour récupérer le contenu des pages web,mais il ne permet pas l'évaluation du JavaScript ou encore l'application des styles CSS.
00:00:41 :Le serveur vous renvoie ainsi tout simplement le code HTML de la page à votre demande.Vous allez donc récupérer ni plus ni moins qu'une grande chaîne de caractères qui va contenir le code source de la page à l'adresse indiquée.
00:01:01 :Généralement, dans ces ressources, on trouve des feuilles de style, les fichiers CSS, des fichiers JavaScript qui permettent d'avoir de l'interactivité,donc les fichiers .js et également les images.
00:01:11 :Mais lorsque vous visitez une page web avec un navigateur, le processus est différent.Vous effectuez comme avec le module request de votre côté une requête unique vers une URL.
00:01:20 :Le navigateur reçoit le code HTML de la page, mais il interprète également son contenu pour identifier les références aux ressources externes.Il va ainsi effectuer automatiquement des requêtes supplémentaires pour récupérer ces ressources qui sont nécessaires au fonctionnement du site.
00:01:59 :Pour vous montrer ce que ça donne en pratique, vous pouvez ouvrir n'importe quel site web.Si je fais un clic droit et que je clique sur Inspect pour ouvrir les outils de développeur, dans l'onglet Network ici, si je réactualise la page, on va voir toutes les requêtes qui sont effectuées.
00:02:34 :Par exemple, le style ici, les images qui sont également affichées et les fichiers JavaScript.Et vous pouvez également, si vous le souhaitez, bloquer ces requêtes. Je peux faire un clic droit sur n'importe laquelle de ces requêtes et cliquer ici sur Block Request URL.
00:02:47 :J'ai un petit panneau qui va s'ouvrir ici et je peux bloquer certaines URLs. On peut même bloquer avec des patterns.Par exemple, je vais bloquer tous les fichiers de type jpg et vous allez voir que si je rafraîchis la page, cette fois-ci, on n'a plus aucune image qui est affichée puisque toutes les requêtes vers les fichiers jpg ont été bloquées.
00:03:23 :Et donc c'est pour cette raison que dans certains cas, vous allez devoir vous-même faire ces requêtes.Par exemple, dans le cas des images, si je veux récupérer les images, il faut que j'identifie les liens vers les images dans le HTML pour ensuite aller télécharger ces images.
00:03:34 :Donc pour aller ici, par exemple, chercher sur cette URL le contenu de l'image et la télécharger sur mon disque.Et dans le cas du JavaScript, c'est pour cette raison qu'on va utiliser des navigateurs qu'on appelle Headless, qui sont des navigateurs qui peuvent rouler en arrière-plan, mais qui vont quand même avoir cette interprétation de tout ce qu'on a vu ici.
00:03:49 :Donc le CSS, le JavaScript, etc. On va voir ça dans les prochaines parties, ne vous inquiétez pas.Et c'est avec ces navigateurs qu'on va pouvoir également interagir avec les sites web, pour par exemple, cliquer sur un bouton, naviguer sur une page et récupérer des données exactement comme on le ferait avec un humain.
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.