Préparation d'un scraping éthique
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte00:00:00 :La première chose à vérifier avant de récupérer les données d'un site web,c'est de vérifier s'il n'existe pas déjà une API publique qui nous permet de récupérer ces données.
00:00:08 :L'utilisation d'une API est plus simple et elle nous permet de faire les choses de façon cadréeen allant récupérer les données de la bonne façon selon les spécifications du site.
00:00:17 :Donc comment vérifier l'existence d'une API ?Vous pouvez tout simplement taper le nom du site web suivi par API et vérifier ce qu'il y a de disponible.
00:00:26 :Dans le cas de Airbnb, il y a bien une API qui est disponible mais elle n'est pas publique.C'est une API qui permet de gérer les annonces que vous avez et non pas de récupérer des informations générales sur le site.
00:00:38 :Si je prends le premier lien par exemple, vous voyez ici qu'on a bien une APImais qu'il faut demander une autorisation pour pouvoir y accéder.
00:00:45 :Vous devez être autorisé par Airbnb à utiliser leur API et vous voyez qu'on ne trouve pas non plus de documentation.La recherche d'une documentation peut être un autre moyen de vérifier si une API est disponible publiquement.
00:00:57 :Je vais prendre un autre exemple, Stripe.Ils disposent d'une API et vous allez voir en tapant Stripe API Documentation qu'on arrive très facilement à trouver cette APIet toute la documentation qui va avec.
00:01:07 :Dans notre cas, on a vérifié l'existence d'une API publique qui fournit les données que je recherche.On avait donc bien une API mais elle n'était pas publique et elle ne me permettait pas,même en utilisant cette API, de récupérer les données de prix que je recherchepuisque cette API sert uniquement à gérer les annonces.
00:01:22 :Deuxième point qu'on va s'assurer de respecter, c'est de récupérer des données à un rythme raisonnable.Dans notre cas, on ne va pas faire de script asynchrone.
00:01:29 :On va utiliser l'API synchrone de Playwright et on ne va pas faire plus qu'une requête à la fois.Et quand on va utiliser également le Scrapping Browser de Bright Data,il y a des mécanismes qui sont faits par Bright Data pour s'assurer que vous ne faites pas un scrapping trop agressif
00:01:43 :pour que les performances du site web ne soient pas détériorées.Si vous voulez en savoir plus sur ce sujet, je vous renvoie vers l'entrevue que j'ai réalisée avec Ronny Chalitdans laquelle il explique justement à quel point Bright Data va justement constammentmonitorer les sites web sur lesquels il y a du scrapping pour s'assurer que les performances ne sont pas détériorées.
00:01:59 :On va également respecter le contenu récupéré et le droit d'auteur.On ne va pas le présenter comme le nôtre.Dans ce cas-ci, je vais juste récupérer des informations de prix.
00:02:06 :Je ne vais pas les republier quelque part.Je ne vais rien faire d'autre que les utiliser pour mon information personnellepour ensuite prendre une décision et décider le mois de l'année dans lequel je préfère partir en vacancesparce que les prix seront plus bas.
00:02:18 :Donc il n'y a aucune réutilisation du contenu récupéré iciet donc pas de risque de présenter ce contenu comme le mien.De la même façon, on ne va pas utiliser ce scrapping pour porter atteinte ou dupliquer des données existantes.
00:02:28 :Là encore, le contenu qu'on récupère ne sera pas publié ou dupliqué ou présenté ailleurs.C'est vraiment de l'information qu'on va récupérer uniquement pour notre besoin personnel.
00:02:37 :Donc on ne va ainsi absolument pas porter atteinte à ces deux derniers points.La dernière chose que j'aime bien faire, c'est de vérifier le fichier robots.txt
00:02:44 :qui est disponible à l'adresse www.airbnb.fr slash robots.txtet vous allez voir que dans ce fichier, en plus de toutes les règles d'utilisation selon les bots,on a un petit message d'accueil qui nous invite à aller postuler si on est un humainet qui nous dit que si on est un bot qui aime faire du crawling,
00:03:00 :donc aller récupérer des informations sur les pages comme on le ferait avec du scrapping,il suffit juste de s'assurer des house rules, donc les règles de la maisonet de ne pas aller sur des dossiers ici qui sont marqués comme disallow.
00:03:12 :Donc voilà, vous voyez qu'ils sont conscients qu'on peut bien faire du scrapping,see you on the next crawl, ils sont assez sympas, ils sont conscients de çaet vous allez voir qu'on va pouvoir réaliser un scrapping sur ce site.
00:03:22 :Je vais descendre ici, là on a les règles pour les différents bots,on a par exemple Yandex, on va avoir Bing, Google, etc.On va descendre tout en bas dans la catégorie qui concerne tous les autres user agentset ici on voit qu'on a tous ces dossiers qui sont en disallow
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.