Tour d'horizon de la plateforme et des outils
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte00:00:00 :Dans cette partie, on va voir ensemble les trois solutions qui nous sont proposées par Bright Datapour faire du scrapping. Vous allez voir que c'est peut-être un petit peu confus au début parce
00:00:08 :qu'il y a beaucoup de solutions qui sont proposées, mais j'espère qu'après cette vidéo vous aurez unemeilleure idée de ce que vous pouvez choisir en fonction des cas d'usage et on verra dans lesprojets qui vont suivre dans cette vidéo également avec Airbnb et Amazon quels outils vous pouvez
00:00:22 :utiliser pour votre scrapping. La première solution qui existe est une solution assezsimple qui s'appelle les proxys résidentielles. Donc ça si vous voulez pour faire simple c'est
00:00:29 :un petit peu comme si on utilisait un VPN, ça va permettre de changer votre adresse IP et depotentiellement choisir également le pays et même la ville à partir de laquelle vous souhaitezaccéder à un service. Donc ça peut être pratique si par exemple vous êtes bloqué avec votre IP,
00:00:44 :si vous avez trop rafraîchi un site pour récupérer des informations, vous pouvez grâce à ces proxysrésidentielles changer d'adresse IP pour pouvoir accéder de nouveau à un site. Donc c'est un
00:00:53 :service qui marche très très bien, qui est efficace, assez rapide mais qui ne contientaucune fonctionnalité un peu plus avancée comme ce qu'on va voir avec d'autres outils spécifiquespour le scrapping que sont le webunlocker et le scrapping browser donc scrapping navigateur enfrançais. Donc le webunlocker c'est un niveau au-dessus, ça va aussi faire une rotation de
00:01:11 :vos IP donc ça va changer votre adresse IP si jamais vous êtes bloqué, ça va faire tout çaautomatiquement pour vous mais il va également avoir un outil de résolution de captcha doncvous pouvez voir ici tout ce qu'il y a de disponible. On a le rendu javascript aussi
00:01:23 :très important si vous avez des sites web qui contiennent du contenu généré par javascriptet on va avoir une rotation comme je vous disais automatique des adresses IP. Donc ça c'est une
00:01:32 :solution très bon marché qui vous permet d'être quasiment assuré à chaque fois d'avoir accès àun site qui vous bloquerait avec des outils qui vont faire tout ça pour vous donc vous n'avezpas besoin de votre côté de choisir quand est-ce qu'il faut changer les IP, quand est-ce qu'il
00:01:44 :faut faire une résolution de captcha etc. C'est vraiment le webunlocker tout seul qui va faireça en arrière-plan, qui va essayer différentes techniques pour débloquer le site et vous assurerque vous avez accès à ce que vous recherchez. Le dernier élément qu'on a c'est le scrapping
00:01:58 :browser qui est tout nouveau et qui permet d'aller encore plus loin donc il y a également les mêmesoutils que le webunlocker à savoir la résolution des captchas, la rotation d'adresse IP etc maisavec la possibilité de l'utiliser avec des outils comme puppeteer, playwright et selenium. Donc là on
00:02:13 :va un niveau dessus ça vous permet de faire exactement la même chose que ce que vousferiez avec un navigateur donc ça c'est bien si vous avez des interactions à faire avec le site,si vous voulez naviguer sur le site, cliquer sur des boutons, remplir des informations vous allez
00:02:26 :pouvoir faire tout ça avec le scrapping browser et un outil comme playwright qu'on va voir dansles prochaines parties que l'on peut utiliser avec python pour ouvrir un vrai navigateur qu'onpourra ouvrir en avant-plan ou en arrière-plan donc pas de panique vous n'allez pas être obligéde laisser votre ordinateur allumé avec un écran ça peut très bien se faire également en arrière-plan
00:02:44 :sans avoir besoin d'ouvrir d'interface mais le navigateur avec playwright lui va quand mêmefonctionner sans qu'on le voit et ça va donc nous permettre comme c'est indiqué ici de contournerles blocages les plus complexes. Au niveau des tarifs il y a beaucoup de tarifs différents avec
00:02:57 :à chaque fois des possibilités de souscrire à des abonnements qui vont vous donner accès à un prixpréférentiel mais vous pouvez également les utiliser sans aucun engagement. Vous voyez également
00:03:05 :qu'on a différentes options ici on a les proxies résidentielles, les proxies de centre de données,on va revenir en détail sur la différence entre les deux puisque vous voyez qu'il y a une énormedifférence de prix entre les deux malheureusement les proxies de centre de données obtiennentgénéralement des moins bons résultats si vous voulez être débloqué sur certains sites je vais
00:03:21 :vous expliquer tout ça en détail pas de souci donc là on voit qu'on a un prix qui est calculé enfonction de la bande passante que vous allez utiliser. Si on va voir par contre les prix
00:03:29 :pour le web unlocker là vous voyez qu'on est avec un coût par mille donc ça va être un coût enfonction des requêtes réussies là encore vous avez une formule sans engagement ou une formuleavec un paiement mensuel qui vous permet d'avoir accès à un prix inférieur et donc le coût par
00:03:43 :mille c'est vraiment à chaque fois que vous avez une requête qui est correctement effectuée etbien vous allez être facturé et là vous allez être facturé 3 dollars pour 1000 requêtes réussiesdonc vous voyez que les prix sont quand même assez faibles 1000 requêtes ça laisse le temps de
00:03:54 :voir venir si vous récupérez des données avec une requête qui est effectuée par exemple troisfois par jour vous allez pouvoir faire des requêtes pendant à peu près un an et ça vous coûtera 3dollars donc vous voyez que ça vous laisse quand même le temps de voir les choses venir et
00:04:06 :finalement le scrapping browser on a un prix qui est là encore possible sans engagement ou avec unengagement mensuel avec un prix qui est là encore réduit et on revient ici sur un fonctionnement enborne passante donc dans les parties qui vont suivre je vais vous présenter ces trois outils
00:04:18 :un peu plus en détail on va voir comment les utiliser dans notre script Python vous allezvoir également que sur chacun de ces outils vous avez un onglet statistics qui vous permet de voirtrès précisément quelle est votre utilisation de ces outils donc vous pouvez monitorer tout çaet vous assurer de ne pas dépenser trop d'argent vous pouvez mettre des limites également vous
00:04:35 :allez pouvoir monitorer tout ça en allant dans vos options de paiement ici donc en bas à gauchevous avez la petite option billing et pour vous donner une idée vous voyez que moi avec tout ceque j'ai fait comme test donc ça fait deux mois que je prépare cette longue formation j'ai fait
00:04:47 :beaucoup beaucoup de tests d'essais d'erreurs avec le scrapping browser avec le webunlockeret avec les proxy résidentiels et vous voyez que je ne suis même pas à 5 dollars de dépenser doncvous voyez que pour des besoins personnels ça reste quand même assez raisonnable et là vousavez les détails de votre plan donc moi vous voyez que je suis avec le plan pay as you go
00:05:05 :donc je n'ai pas un abonnement mensuel c'est vraiment à chaque fois que j'utilise quelquechose que ce soit les proxy que ce soit le webunlocker le scrapping browser donc là on atous les prix qui sont remis ici et bien je vais payer en fonction de l'utilisation que je fais de
00:05:17 :ces outils donc pour résumer on a les proxy donc les proxy que ce soit résidentiels ou des proxyde centre de données qui nous permettent tout simplement de changer d'adresse ip dans le cason souhaite accéder à un site web depuis une zone géographique précise ou parce que notre ip a été
00:05:32 :bloqué on a ensuite le webunlocker qui lui va beaucoup plus loin avec également la possibilitéde changer d'ip mais de façon automatique avec une résolution également des captchas le rendu dujavascript et l'empreinte de navigateur par empreinte de navigateur on entend par là toutce qui fait qu'un navigateur semble être utilisé par un humain donc ça va être les en-têtes les
00:05:51 :headers en anglais les cookies etc et pour finir donc on a le scrapping browser qui permet égalementla résolution des captchas la rotation automatique des ip le rendu javascript l'empreinte dunavigateur mais également l'utilisation avec des outils comme playwright pour pouvoir faire desinteractions avec la page donc c'est l'outil ultime qui permet de résoudre toutes les
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.