Scraper les données de Airbnb

00:00:00 :La première chose à vérifier avant de récupérer les données d'un site web,c'est de vérifier s'il n'existe pas déjà une API publique qui nous permet de récupérer ces données.
00:00:08 :L'utilisation d'une API est plus simple et elle nous permet de faire les choses de façon cadrée en allant récupérer les données de la bonne façon selon les spécifications du site.
00:00:17 :Donc comment vérifier l'existence d'une API ?Vous pouvez tout simplement taper le nom du site web suivi par API et vérifier ce qu'il y a de disponible.
00:00:26 :Dans le cas de Airbnb, il y a bien une API qui est disponible mais elle n'est pas publique.C'est une API qui permet de gérer les annonces que vous avez et non pas de récupérer des informations générales sur le site.
00:00:38 :Si je prends le premier lien par exemple, vous voyez ici qu'on a bien une API mais qu'il faut demander une autorisation pour pouvoir y accéder.
00:00:45 :Vous devez être autorisé par Airbnb à utiliser leur API et vous voyez qu'on ne trouve pas non plus de documentation.La recherche d'une documentation peut être un autre moyen de vérifier si une API est disponible publiquement.
00:00:57 :Je vais prendre un autre exemple, Stripe.Ils disposent d'une API et vous allez voir en tapant Stripe API Documentation qu'on arrive très facilement à trouver cette API et toute la documentation qui va avec.
00:01:07 :Dans notre cas, on a vérifié l'existence d'une API publique qui fournit les données que je recherche.On avait donc bien une API mais elle n'était pas publique et elle ne me permettait pas,même en utilisant cette API, de récupérer les données de prix que je recherche puisque cette API sert uniquement à gérer les annonces.
00:01:22 :Deuxième point qu'on va s'assurer de respecter, c'est de récupérer des données à un rythme raisonnable.Dans notre cas, on ne va pas faire de script asynchrone.
00:01:29 :On va utiliser l'API synchrone de Playwright et on ne va pas faire plus qu'une requête à la fois.Et quand on va utiliser également le Scrapping Browser de Bright Data,il y a des mécanismes qui sont faits par Bright Data pour s'assurer que vous ne faites pas un scrapping trop agressif
00:01:43 :pour que les performances du site web ne soient pas détériorées.Si vous voulez en savoir plus sur ce sujet, je vous renvoie vers l'entrevue que j'ai réalisée avec Ronny Chalit dans laquelle il explique justement à quel point Bright Data va justement constamment monitorer les sites web sur lesquels il y a du scrapping pour s'assurer que les performances ne sont pas détériorées.
00:01:59 :On va également respecter le contenu récupéré et le droit d'auteur.On ne va pas le présenter comme le nôtre.Dans ce cas-ci, je vais juste récupérer des informations de prix.
00:02:06 :Je ne vais pas les republier quelque part.Je ne vais rien faire d'autre que les utiliser pour mon information personnelle pour ensuite prendre une décision et décider le mois de l'année dans lequel je préfère partir en vacances parce que les prix seront plus bas.
00:02:18 :Donc il n'y a aucune réutilisation du contenu récupéré ici et donc pas de risque de présenter ce contenu comme le mien.De la même façon, on ne va pas utiliser ce scrapping pour porter atteinte ou dupliquer des données existantes.
00:02:28 :Là encore, le contenu qu'on récupère ne sera pas publié ou dupliqué ou présenté ailleurs.C'est vraiment de l'information qu'on va récupérer uniquement pour notre besoin personnel.
00:02:37 :Donc on ne va ainsi absolument pas porter atteinte à ces deux derniers points.La dernière chose que j'aime bien faire, c'est de vérifier le fichier robots.txt
00:02:44 :qui est disponible à l'adresse www.airbnb.fr slash robots.txt et vous allez voir que dans ce fichier, en plus de toutes les règles d'utilisation selon les bots,on a un petit message d'accueil qui nous invite à aller postuler si on est un humain et qui nous dit que si on est un bot qui aime faire du crawling,
00:03:00 :donc aller récupérer des informations sur les pages comme on le ferait avec du scrapping,il suffit juste de s'assurer des house rules, donc les règles de la maison et de ne pas aller sur des dossiers ici qui sont marqués comme disallow.
00:03:12 :Donc voilà, vous voyez qu'ils sont conscients qu'on peut bien faire du scrapping,see you on the next crawl, ils sont assez sympas, ils sont conscients de ça et vous allez voir qu'on va pouvoir réaliser un scrapping sur ce site.
00:03:22 :Je vais descendre ici, là on a les règles pour les différents bots,on a par exemple Yandex, on va avoir Bing, Google, etc.On va descendre tout en bas dans la catégorie qui concerne tous les autres user agents et ici on voit qu'on a tous ces dossiers qui sont en disallow
00:03:36 :et si je veux voir dans la recherche, si je fais une recherche,puisque c'est cette page ici qu'on va scrapper, je vois que là je suis dans le dossier slash s et ensuite plein d'informations sur la recherche que j'ai effectuée.
00:03:47 :Donc ce dossier slash s, si je retourne sur le robots.txt,on voit qu'il n'est pas contenu dans cette liste de dossiers disallow.Donc voilà pour tous les éléments que je voulais vérifier avant de commencer le scrapping pour s'assurer de respecter un scrapping éthique.

Préparation d'un scraping éthique

Prérequis

Rechercher sur le site

Préparation d'un scraping éthique

Inscris-toi

Rechercher sur le site