Le fichier robots.txt
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte00:00:18 :Vous allez retrouver ce fichier qui indique les éléments qui ne sont pas utiles pour un scrapping.Donc c'est un fichier qui est destiné principalement aux bots qui vont venir récupérer des informations sur le site, notamment les crawlers de Google qui vont aller récupérer les informations pour les indexer sur le moteur de recherche.
00:01:08 :Donc allow ici et on va avoir cela pour différents bots.Donc les différents bots vont être identifiés avec ce user agent.Au début on avait un user agent avec une astérisque ici donc ça va concerner de base tous les crawlers qui vont arriver sur le site.
00:01:21 :Et si on descend ici vous voyez qu'on a certains bots qui sont avec un peu plus de restrictions.Donc notamment le GPT bot qui doit être le bot de OpenAI j'imagine, je n'ai pas vérifié mais j'imagine que c'est ça.
00:01:31 :Où là on indique que l'accès doit être total à l'entièreté du site.Donc avec disallow ici qui est fait sur la racine.Si vous voulez en savoir plus sur ce fichier vous pouvez aller sur robots-txt.com.
00:01:41 :C'est un site très bien fait qui explique toute la syntaxe de ce fichier et ce que vous pouvez mettre dedans.Dans le cas du scrapping donc ça va nous être utile pour savoir les pages qui ne sont pas vraiment dignes d'intérêt.
00:01:57 :Et vous avez un autre paramètre qui peut être intéressant pour le scrapping qui est assez rare.Personnellement je dois avouer que je ne l'ai jamais vu dans un fichier robots.txt.
00:02:04 :Mais ce paramètre est un paramètre qui est géré comme vous le voyez ici par différents moteurs de recherche comme Yahoo, Bing etc.Donc c'est un crawl delay qui va indiquer en fait le nombre de secondes à attendre entre chaque requête.
00:02:23 :Donc voilà ça peut être une bonne indication aussi si quelqu'un a mis un crawl delay ici.Vous avez une indication du nombre de temps en seconde à utiliser entre chaque requête pour ne pas surcharger leur site si vous utilisez un bot de scrapping.
00:02:35 :Donc le robots.txt ce n'est pas une bible absolue.Il y a plein d'autres choses à prendre en compte comme on l'a vu dans les parties précédentes.
00:02:40 :Mais c'est toujours intéressant.Par exemple j'aime bien celui de Airbnb qui nous indique que si on a un bot il suffit de suivre comme expliqué toutes les indications ici.
00:03:04 :J'en profite pour rajouter un petit complément sur le GPT Bot.Effectivement c'est un bot qui est utilisé par OpenAI et vous voyez ça confirme ce que je disais sur le scrapping éthique avec le UserAgent.
00:03:14 :Vous voyez qu'ici il est clairement indiqué que le UserAgent va contenir cette information.Donc on est bien avec le GPT Bot et on a même le lien ici de cette page qui indique tout ce qui est fait par ce bot.
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.