Utiliser le Web Unblocker
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte00:00:00 :Dans cette partie, on va voir comment utiliser le Web Unlocker de Bright Data.Le Web Unlocker vous permet de débloquer les sites web avec une gestion automatique des proxys,exactement comme le réseau de proxys résidentiels.
00:00:13 :Il va faire tout ça automatiquement et il va également vous permettre d'avoir le rendu du JavaScript.Le Web Unlocker va s'utiliser avec le module Request avec Pythonet ça va être exactement la même chose que pour le réseau de proxys.
00:00:26 :Sur votre tableau de bord, vous pouvez ajouter un nouveau Web Unlocker et lui donner un nom.Moi, j'en ai déjà créé un, donc je vais aller directement sur la page de ce Web Unlockeret vous allez voir que c'est vraiment exactement la même chose que pour le réseau de proxys.
00:00:39 :On a le host, le username, le password.Ensuite, on a les adresses IP qui sont autorisées, les adresses qui sont bloquéeset on va pouvoir aller également dans la configuration si on le souhaite,choisir un pays et éventuellement un état ou une ville également.
00:00:52 :Pour l'instant, j'ai juste le pays qui est ici, mais je peux rajouter le cityet on pourra, comme pour le réseau de proxys, ajouter dans l'adresse qu'on va donner à notre module Requestla zone qu'on souhaite cibler.
00:01:04 :Et on a également les statistiques ici qui nous indiquent la bande passante qu'on a utilisée.Donc si je reviens dans Access Parameters, n'oubliez pas d'activer votre proxyet on va pouvoir cliquer ici pour vérifier les exemples de codeet vous voyez ici qu'on a exactement le même code avec la vérification sur Python 2 ou Python 3.
00:01:20 :Donc la seule chose que vous avez besoin de récupérer là encore,c'est ce dictionnaire qui va contenir la clé HTTP et HTTPS.Et si je reviens dans mon script de scrapping,je peux donc remplacer ce dictionnaire que j'utilisais pour le réseau de proxys par celui-ci.
00:01:34 :Donc vous voyez que c'est quasiment la même chose.On a ici les informations avec le host, le username, le passwordet je vais ensuite passer cette information, là je l'ai mis dans une variable,donc je l'avais appelé Patrick juste pour vous montrer qu'on pouvait l'appeler n'importe commentet qu'ensuite c'est bien au paramètre proxy qu'il faut passer cette variable.
00:01:51 :Vous n'êtes même pas obligé de faire une variable, si vous le souhaitez,vous pouvez mettre ces informations directement ici en tant que dictionnaire.Et si vous relancez le script en l'état, vous allez voir que dans ce cas-ci, on a une erreur.
00:02:00 :Donc c'est normal, c'est parce qu'il faut en fait enlever la vérification des certificats SSLpour l'utilisation du unblocker et ça peut se faire très facilementen rajoutant ici l'argument verify que l'on va mettre à false.
00:02:11 :Donc si je relance, vous allez voir que cette fois-ci, on va bien récupérer les informations.Donc là on est dans ce cas-ci aux Etats-Unis à Ashburn avec une autre adresse IP.
00:02:19 :On a également un avertissement ici qui nous dit qu'on a une requête qui n'est pas vérifiée.Alors ce n'est pas un problème en fait, c'est juste la requête vers le proxyque l'on va faire sans vérification, mais le proxy lui après,il va pouvoir faire des requêtes de façon sécurisée.
00:02:33 :Vous voyez ici qu'on a deux clés, HTTP et HTTPS,et c'est juste la requête vers le proxy qui va être faite en HTTP,mais ensuite le proxy lui va pouvoir faire des requêtes sécurisées en HTTPS.
00:02:43 :Et si jamais vous voulez enlever cet avertissement,c'est possible de le faire avec la bibliothèque urllib.Donc on va l'importer, on va faire import urllib3,et on va faire urllib3.disableWarnings,
00:02:55 :et on va faire urllib3.exception.insecureRequestWarning.Donc ça, ça va désactiver cet avertissementsi jamais vous ne voulez pas l'avoir à chaque fois dans votre terminal.Donc là, je peux relancer le script et vous allez voir que cette fois-ci,on aura juste la ligne qui nous dit qu'on est dans ce cas-ci,
00:03:10 :encore une fois, à Ashburn aux Etats-Unis.Et vous voyez qu'il y a des petites différences avec le réseau de proxy.Là, quand on relance le script,on voit qu'on est toujours dans la même location avec le même adresse IP.
00:03:19 :Donc le WebUnlocker, il va faire beaucoup de choses en plus du réseau de proxy.Donc il va vérifier si vous êtes bloqué ou non.Si vous êtes bloqué avec un CAPTCHA, il va essayer de le débloquer.
00:03:28 :Si jamais, même après ça, parce que ça arrive des foisquand il arrive à débloquer le CAPTCHA,que le site bloque quand même l'adresse IPparce qu'il considère que le comportement ressemble à un bot,eh bien dans ce cas-ci, il va changer l'adresse IP à ce moment-làpour pouvoir débloquer et passer sur un autre proxy.
00:03:42 :Donc il va faire tout ça automatiquement en arrière-planet c'est une très bonne solution du coup pour éviter toutes sortes de blocages.Mais vous voyez que dans l'utilisation,on a quasiment la même chose qu'avec le réseau de proxy.
00:03:52 :On passe tout simplement les proxy à notre module requestavec le verify qui est égal à false.Donc là, on passe encore par le module requestet on va voir dans la prochaine partie avec le Scrapping Browsercomment cette fois-ci, on peut vraiment utiliser un navigateur headlessavec Playwright en utilisant le Scrapping Browser de Bright Data.
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.