Mise en place de Bright Data
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte00:00:00 :Dans cette partie, on va mettre en place le réseau de proxy résidentiel de Bright Data.Ça va nous permettre d'avoir une rotation automatique des adresses IP qu'on utilisepour faire les requêtes vers notre site.
00:00:12 :Dans mon cas, je n'ai pas été bloqué sur le site que j'utilise,mais je sais que sur des sites français, ça arrive beaucoup plus fréquemment,qu'ils limitent les requêtes qui sont faites.
00:00:21 :Donc si vous faites en sorte de ne pas trop surcharger le site,normalement ça ne devrait pas arriver, mais il y a des cas de figuredès que, même si vous faites du scrapping éthique,dès que c'est détecté, si par exemple vous changez le user agentpour indiquer clairement que vous faites du scrapping,
00:00:36 :les sites vont bloquer même si vous le faites de façon éthique.Donc ça peut être pratique d'avoir accès à un réseau de proxy résidentielcomme celui de Bright Data, qui vont vous permettre de faire automatiquementune rotation d'IP pour pouvoir changer d'adresse IPdans le cas où vous êtes bloqué pour pouvoir refaire des requêtes.
00:00:51 :Dans notre cas, ça va être assez léger puisqu'on va exécuter le scriptune seule fois la nuit pour mettre à jour les horaires de film,mais vous pourriez avoir des cas de figure dans lesquels vous avez besoinde faire plus de requêtes. Donc là encore, c'est intéressant
00:01:03 :d'avoir accès à ce réseau de proxy.Je vais cliquer sur mon proxy, je vais m'assurer qu'il soit bien à on ici,et j'ai les différentes informationsqui vont me permettre de me connecter.
00:01:15 :On a le host ici, on va voir le username, le mot de passe,et on va voir des exemples ici qu'on va utiliser.Je changerai ou je désactiverai ce proxy, je vais probablementmême le supprimer, donc vous ne pourrez pas utiliser ces informationsici. Mais de votre côté, si vous créez
00:01:30 :un proxy, vous allez devoir utiliser ces informations,et dans Curser, on va créer un fichier d'environnement pour mettreces informations. Je vais mettre ça sur le côté, je vais ramener
00:01:39 :mon curseur ici, et je vais créer un fichier que je vais appeler.env. C'est généralement comme ça qu'on l'appelle, mais ce n'est pas une obligation.
00:01:45 :Et là, je vais mettre plusieurs variables dont je vais avoir besoin.On va déjà faire un booléen, donc je vais l'appeleruseBrightData, et on va le mettre à true. Ça c'est un booléen
00:01:54 :qu'on pourra modifier aussi directement en lançant le script.On va voir plus tard en utilisant un module qui s'appelle ArcParse,qui va me permettre de choisir, donc de faire un genre de switchpour choisir si je souhaite utiliser le proxy ou non.
00:02:06 :Ça peut être pratique en local quand je fais des tests de ne pas utiliserce proxy, parce que forcément ici ça va coûter de l'argent, même si c'estassez faible, ça va quand même déduire cela dema balance ici. Donc je dois pouvoir facilement
00:02:18 :quand je fais des tests en local, désactiver pour utilisersimplement le request. Et si jamais, même en local, je suis bloqué, je peuxfacilement repasser sur le proxy de BrightData.
00:02:27 :On va faire une autre variable que je vais appelerBrightDataCustomer. On va faire BrightDataPasswordet on va faire, là vous voyez qu'il y a l'autocomplétion qui comprenddéjà ce que je veux faire. On va voir la zone et le port, et pour l'instant
00:02:39 :on va mettre juste ces informations et on va les copier à partir de là.Donc ces informations sont un peu éparpillées ici, il y a juste lepassword qui est facile à trouver, donc on va cliquer pour le copieret je vais le mettre directement ici. Le customer
00:02:51 :ça va être juste la première partie de notre nom d'utilisateur ici.Donc là on va avoir le nom d'utilisateur, customeravec cette chaîne de caractère. Je vais faire un petit peu de place
00:03:00 :parce que là on ne voit plus très bien ce qui se passe. Et donc on a icile nom d'utilisateur et après ça va être la zone.
00:03:06 :Dans notre cas on va faire une zone qui va être au Portugal, puisque c'estde là qu'on va accéder au site. Alors si je reviens ici sur le site
00:03:12 :vous voyez qu'on peut sélectionner le country. Donc là je vais allerdescendre en bas et on va aller chercher Portugal et on vacopier la chaîne de caractère qui nous est retournée dans le shell.
00:03:21 :Donc ici je sélectionne Portugal et làvous allez voir, si je refais un petit peu de place, queon a la zone qui est affichée ici. Donc ça va être zone, residential, country
00:03:30 :etc. Donc là je vais juste récupérer residentialcountry PT, donc Portugal. On va le mettre ici.Le port c'est 33335ici. Je le mets ici et normalement
00:03:42 :on a tout ce qu'il faut. Donc on a le nom d'utilisateur, le motde passe, la zone à partir de laquelle on va accéder avec notreproxy et le port qu'on va utiliser. Et tout ça
00:03:51 :on va l'utiliser après pour le proxy qu'on vafaire avec request. Donc si je reviens ici vous allez voir qu'on adifférents langages qui sont disponibles. Je peux aller chercher Python
00:04:00 :et on a du code qui nous est donné. Malheureusement ce code il estun peu vieux. Vous voyez qu'on a même ici une structure conditionnelle
00:04:06 :qui va nous permettre de vérifier si on est avec Python 2 ou Python 3.Et même avec Python 3 en fait il va utiliserla bibliothèque urllib.request. Donc c'est une bibliothèque
00:04:15 :qui est disponible dans la bibliothèque de base, lalibrairie standard de Python. Nous on utilise déjàrequest donc en fait on ne va pas vraiment avoir besoin de toutce code ici. On pourrait le donner à notre IA
00:04:27 :donc sur Cursor pour avoir une base. Faites bien attention si vous faitesça cependant, toujours quand vous travaillez avec des intelligencesartificielles, ne mettez pas les informations sensibles commecelles qui sont ici. Là vous voyez qu'on a dans cette chaîne de caractère
00:04:39 :le mot de passe, le nom de l'utilisateur, la zone etc.Donc vous avez des informations sensibles. C'est bien importantde ne pas les mettre dans vos promptes. On ne sait jamais même si
00:04:48 :toutes ces compagnies là vous disent qu'elles n'utilisent pasvos données, que c'est déstocké correctement etc.On ne sait jamais. Il y a eu pas mal de cas de figure de gens
00:04:57 :qui se sont retrouvés avec des informations confidentielles, qui se sont retrouvéesdans des données d'entraînement etc. Donc dès que vous avez la moindredonnée sensible, ne la mettez pas dans le prompt. Remplacez,
00:05:06 :mettez un exemple. Là ici vous pouvez mettre Customer, Passwordà la place des vraies données et l'IA va comprendrequ'il faudra par la suite remplacer ces informations. De toute façon
00:05:15 :dans notre cas, nous on ne va pas mettre ça directement dans le script.On a déjà prévu le coup en mettant ça dans un fichier séparé quebien sûr on ne mettrait pas dans notre systèmede gestion de version comme Git et on va retournerdans le main pour cette fois-ci demander à l'IA de nous faire
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.