Utiliser le proxy de Bright Data
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte00:00:00 :Dans cette partie on va s'assurer de mettre en place le proxy de brightdata puisque si je faisun ls-la en ce moment dans le dossier on a juste le fichier env default qui affiche les variablesd'environnement mais sans les valeurs associées. Donc avec vim je vais créer un fichier .env ici
00:00:15 :et je vais en mode insertion mettre dans ce fichier toutes les variables ici et la seulechose qu'il va falloir modifier c'est le fichier vers le certificat qui était en local sur monordinateur donc je vais déplacer le fichier sur ce serveur et ensuite il ne me restera donc
00:00:30 :qu'à changer le chemin ici pour mettre le bon chemin depuis le serveur. Donc je sors de cefichier avec wq et on va aller depuis mon ordinateur local copier ce fichier sur leserveur distant. Alors pour ça on peut utiliser un utilitaire qui s'appelle scp mais je me
00:00:45 :souviens jamais exactement quelle est la syntaxe donc on va utiliser l'intelligence artificiellede notre terminal. Je vais pour ça lui donner toutes les informations donc je vais faire une
00:00:54 :recherche dans mon ssh pour ramener la commande ici avec le nom du serveur et la clé qui mepermet de s'y connecter et je vais rentrer en mode agent donc avec le commande i. Donc je vais
00:01:06 :dire ce que je veux faire je souhaite copier la clé bdata.pem qui est dans mes documents surle serveur aws distant auquel je me connecte avec cette ligne de commande. Donc on va lui dire juste
00:01:22 :ça et on va voir si avec ça déjà il arrive à trouver le fichier. Donc le fichier il le trouvebien dans mes documents ensuite il va voir donc s'il peut faire cet output donc je valide avecentrée et normalement ça devrait être bon je pense que c'est juste ça voilà c'est ça scp donc
00:01:41 :vous voyez il fait avec le tiret i il lui donne ma clé de permission qui me permet de me connecteret il va juste chercher la clé bdata.pem et il la copie dans le dossier utilisateur. Donc vous voyez
00:01:52 :en fait c'est un petit peu la syntaxe dont je ne me souvenais plus je savais plus qu'il fallaitdéjà mettre la source le target donc alors ça se fait là vous voyez il y a les deux points il y ale nom d'utilisateur le nom du serveur et ensuite c'est deux points et le nom du dossier donc là
00:02:07 :c'est tout simplement le tilde qui permet d'indiquer que c'est le dossier utilisateur. Donc là je vaispouvoir me connecter maintenant avec mon SSH sur mon serveur AWS donc là je sors je n'étais pasencore sorti donc je sors de cet agent mode on va faire SSH pour se reconnecter et là on va
00:02:26 :voir normalement devrait revenir voilà je fais un ls et là j'ai bien mon bdata.pem donc je vaisfaire un realpass de bdata.pem et comme ça on va récupérer le chemin complet vers cette clé de
00:02:38 :permission et je vais naviguer de nouveau à l'intérieur de Scraping Cinema dans Scraperdans source j'avais mon fichier d'environnement donc je vais faire vim.env et ici on va aller
00:02:49 :modifier ce chemin donc je supprime le chemin que j'avais ici et je le remplace par la clé àl'intérieur de mon serveur. Je valide je sors et on va revenir en fait puisque je veux utiliser mon
00:02:59 :proxy donc je reviens dans mon fichier d'environnement et là pour le usebrightdata je vaismettre true à la place de false je valide je sors et on va pouvoir tester avec brightdatanotre script. Donc juste avant ça je viens réactiver mon réseau de proxy résidentiel sur
00:03:15 :l'interface de brightdata puisque je l'avais désactivé lorsque la vidéo était sortie doncje reviens dans mon terminal et on va pouvoir relancer notre fichier de Scraping donc je vaisrevenir au niveau du dossier principal et on va relancer notre Scraper alors j'ai pas sourcé monenvironnement virtuel voilà et on va faire python3-mscraper source main et on regarde
00:03:35 :donc là il se connecte et ça fonctionne donc on a bien ici configuration des proxy brightdatautilisation du proxy brightdata et on a ici le script qui continue donc c'est un petit peu pluslent forcément comme on utilise un réseau de proxy mais là on est sûr de ne pas être bloqué
00:03:50 :par notre site si jamais on avait une détection des captchas ou quoi que ce soit ça serait régléautomatiquement par le réseau de proxy résidentiel de brightdata donc je vais pas aller jusqu'au boutje vais m'arrêter là mais ça fonctionne et avec le clonejob on a donc notre script qui va être
00:04:05 :exécuté automatiquement. Un dernier outil que je voulais vous montrer c'est un outil qui va vouspermettre de vous assurer que votre script fonctionne avec le clonejob donc là pour l'instanton est un petit peu à l'aveugle à part aller voir sur le site tous les jours si on a bien dans
00:04:19 :la date ici la date du jour pour s'assurer que notre script a bien été exécuté si jamais lescript n'est pas exécuté correctement avec le clonejob on ne va pas être averti. Donc moi celui
00:04:29 :que j'utilise il s'appelle healthcheck vous voyez que j'ai plusieurs choses qui sont en train detourner ici sur docstring et ce que ça va vous permettre de faire c'est de créer en fait iciavec la syntaxe du clone donc là par exemple vous voyez ici on pourra mettre 0 et le 1 donc en fait
00:04:42 :vous allez créer cette configuration je vais le créer pour vous montrer donc on va dire webuije vais laisser ça comme ça save et là ce que ça va faire si on va voir dans les préférences dece webui c'est que vous allez avoir une une adresse que vous allez pouvoir pinguer donc
00:04:55 :pinguer c'est tout simplement en fait vous allez faire une requête vers cette url et quand on vafaire une requête vers cette url je vais faire dans un nouvel anglais pour vous montrer là vousvoyez ça nous retourne juste ok et si je reviens ici on a bien le statut new qui est à up et donc
00:05:09 :ce que ça va faire en fait ici c'est qu'il va s'attendre tous les jours à 1h du matin à avoirun ping qui va être fait à cette url donc là ce qu'on peut faire c'est rajouter un curl vers cetteurl dans notre cronjob donc je vais revenir ici dans mon terminal on va faire crontab-e et dans
00:05:27 :notre scraper en fait c'est vrai qu'on avait mis notre scraper.sh donc justement comme je vousdisais ça permet de faire ça directement dans le script donc je vais revenir ici je vais faire unvim de scraper.sh et ce qu'on va faire c'est qu'à la fin ici après cette ligne qui exécute notre
00:05:41 :script on va faire un curl vers cette url donc curl c'est tout simplement un outil qui nous permet defaire une requête sur linux donc je valide je sors de mon script et si on revient ici si je faisle curl vers ping vous allez voir qu'on va avoir un nouveau ici HTTPS GET voilà donc on a le curl
00:05:58 :vous voyez que là on était avec Mozilla donc on voyait ici en fait le user agent qui est utiliséainsi que l'adresse IP et là effectivement on a bien l'adresse IP de mon serveur AWS avec curlqui a été utilisé donc là ce que ça va faire c'est que si jamais il y a un problème si le
00:06:13 :cronjob n'est pas exécuté et bien on va avoir un grace time de une heure donc pendant une heureil va rien faire parce qu'en fait on peut avoir des fois je sais pas un petit problème de réseaudes choses comme ça donc là une heure c'est quand même assez long ça peut être plus intéressant si
00:06:26 :on a des par exemple des programmes qui tournent toutes les minutes si au bout de 30 secondes ily a rien qui s'est passé ça peut être problématique on utilise pas mal ça aussi pour les uptime doncpour savoir si votre site plante vous faites un ping toutes les minutes et si au bout de deux
00:06:39 :minutes par exemple le ping n'a pas été fait c'est qu'il y a eu un problème donc là en fait àune heure il va s'attendre à avoir un ping qui va être fait si ce n'est pas le cas il va attendreune heure et après une heure s'il n'y a toujours pas eu de nouvelles et bien il va nous avertir
00:06:51 :donc vous voyez on peut être notifié de différentes façons moi j'ai des notifs sur mon serveur discordou avec pushover donc pushover c'est en fait pour avoir des notifications sur votre téléphone survotre appareil mobile ça peut être tablette téléphone etc donc comme ça vous êtes avertiqu'il y a un problème vous pouvez aussi recevoir un mail si vous voulez il y a plein de façons
00:07:10 :d'être notifié donc comme ça ça vous permet voilà d'être averti si jamais il y a un problèmepour pouvoir aller le régler sur votre serveur on peut réussir d'utiliser d'autres services commesentry qui permettent en plus d'avoir un log des erreurs là pour l'instant on a fait quelquechose d'assez simple on n'a aucun logging rien donc après s'il y a des problèmes on sera juste
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.