Contourner les obstacles au scraping

00:00:00 :Sur la majorité des sites web que vous visitez, il y a un petit fichier texte qui est disponible à la racine des sites qui indique les pages à ne pas scraper.
00:00:08 :Ce fichier, c'est le fichier robots.txt. Vous pouvez le trouver en ajoutant tout simplement robots.txt après l'URL d'un site, donc directement à la racine du site.
00:00:18 :Vous allez retrouver ce fichier qui indique les éléments qui ne sont pas utiles pour un scrapping.Donc c'est un fichier qui est destiné principalement aux bots qui vont venir récupérer des informations sur le site, notamment les crawlers de Google qui vont aller récupérer les informations pour les indexer sur le moteur de recherche.
00:00:35 :Vous voyez par exemple ici pour Amazon qu'on a beaucoup de dossiers ici qui sont indiqués et qui ne sont d'aucune utilité pour un indexage sur Google.
00:00:43 :Donc ça va être des parties du site ou des URL qui vont être utilisées pour la mécanique interne du site mais qui n'ont aucune donnée d'intérêt pour un moteur de recherche ou même pour des humains.
00:00:52 :Alors bien sûr ce fichier est public, n'importe qui peut aller le lire et vous pouvez essayer d'accéder à ces URL pour voir ce qu'elles contiennent si ça vous intéresse.
00:00:59 :Vous voyez ici qu'on a beaucoup de dossiers qui sont désactivés donc avec cette commande disallow et on a à l'inverse d'autres dossiers ici qui sont indiqués comme possibles d'accès avec l'inverse.
00:01:08 :Donc allow ici et on va avoir cela pour différents bots.Donc les différents bots vont être identifiés avec ce user agent.Au début on avait un user agent avec une astérisque ici donc ça va concerner de base tous les crawlers qui vont arriver sur le site.
00:01:21 :Et si on descend ici vous voyez qu'on a certains bots qui sont avec un peu plus de restrictions.Donc notamment le GPT bot qui doit être le bot de OpenAI j'imagine, je n'ai pas vérifié mais j'imagine que c'est ça.
00:01:31 :Où là on indique que l'accès doit être total à l'entièreté du site.Donc avec disallow ici qui est fait sur la racine.Si vous voulez en savoir plus sur ce fichier vous pouvez aller sur robots-txt.com.
00:01:41 :C'est un site très bien fait qui explique toute la syntaxe de ce fichier et ce que vous pouvez mettre dedans.Dans le cas du scrapping donc ça va nous être utile pour savoir les pages qui ne sont pas vraiment dignes d'intérêt.
00:01:50 :Ça peut être intéressant si vous faites des bots de scrapping qui vont avoir comme intérêt un peu comme le fait Google de faire un indexage et non pas juste une recherche de données.
00:01:57 :Et vous avez un autre paramètre qui peut être intéressant pour le scrapping qui est assez rare.Personnellement je dois avouer que je ne l'ai jamais vu dans un fichier robots.txt.
00:02:04 :Mais ce paramètre est un paramètre qui est géré comme vous le voyez ici par différents moteurs de recherche comme Yahoo, Bing etc.Donc c'est un crawl delay qui va indiquer en fait le nombre de secondes à attendre entre chaque requête.
00:02:16 :Vous voyez que par exemple les robots de Google n'utilisent pas ce crawl delay et à la place vous pouvez le spécifier dans les outils pour les webmasters de Google.
00:02:23 :Donc voilà ça peut être une bonne indication aussi si quelqu'un a mis un crawl delay ici.Vous avez une indication du nombre de temps en seconde à utiliser entre chaque requête pour ne pas surcharger leur site si vous utilisez un bot de scrapping.
00:02:35 :Donc le robots.txt ce n'est pas une bible absolue.Il y a plein d'autres choses à prendre en compte comme on l'a vu dans les parties précédentes.
00:02:40 :Mais c'est toujours intéressant.Par exemple j'aime bien celui de Airbnb qui nous indique que si on a un bot il suffit de suivre comme expliqué toutes les indications ici.
00:02:48 :Mais que si on est un humain qui aime résoudre des challenges intéressants avec d'autres humains alors on peut aller voir leur page qui indique les postes qui sont ouverts chez Airbnb.
00:02:57 :Donc c'est toujours assez intéressant quand même d'aller voir ce fichier pour savoir ce qu'il est possible de faire mais aussi pour découvrir des petites pépites comme celle-ci.
00:03:04 :J'en profite pour rajouter un petit complément sur le GPT Bot.Effectivement c'est un bot qui est utilisé par OpenAI et vous voyez ça confirme ce que je disais sur le scrapping éthique avec le UserAgent.
00:03:14 :Vous voyez qu'ici il est clairement indiqué que le UserAgent va contenir cette information.Donc on est bien avec le GPT Bot et on a même le lien ici de cette page qui indique tout ce qui est fait par ce bot.
00:03:25 :Donc vous voyez c'est un très bon exemple de ce que je disais sur la modification du UserAgent avec cette chaîne de caractères qui était modifiée pour indiquer que le script qui est utilisé vient de OpenAI.
00:03:35 :Et ainsi on peut très facilement juste en inspectant le UserAgent de notre côté quand on est éditeur de site savoir que c'est donc une requête qui vient d'OpenAI.
00:03:43 :Et ainsi entrer en contact avec eux si jamais cela nous pose des problèmes de performance ou autres sur notre site.Vous voyez également cette indication donc qui indique bien sur le robots.txt que ce bot de scrapping va respecter le UserAgent.
00:03:55 :Et que pour empêcher le bot d'OpenAI d'utiliser ces données pour potentiellement comme c'est indiqué ici améliorer de prochains modèles qu'ils vont utiliser.Et bien il suffit de mettre ces informations à l'intérieur de votre fichier robots.txt.

Le fichier robots.txt

Rechercher sur le site

Le fichier robots.txt

Inscris-toi

Rechercher sur le site