Scraping Cinéma : présentation des données

00:00:00 :Dans cette partie on va s'assurer de mettre en place le proxy de brightdata puisque si je fais un ls-la en ce moment dans le dossier on a juste le fichier env default qui affiche les variables d'environnement mais sans les valeurs associées. Donc avec vim je vais créer un fichier .env ici
00:00:15 :et je vais en mode insertion mettre dans ce fichier toutes les variables ici et la seule chose qu'il va falloir modifier c'est le fichier vers le certificat qui était en local sur mon ordinateur donc je vais déplacer le fichier sur ce serveur et ensuite il ne me restera donc
00:00:30 :qu'à changer le chemin ici pour mettre le bon chemin depuis le serveur. Donc je sors de ce fichier avec wq et on va aller depuis mon ordinateur local copier ce fichier sur le serveur distant. Alors pour ça on peut utiliser un utilitaire qui s'appelle scp mais je me
00:00:45 :souviens jamais exactement quelle est la syntaxe donc on va utiliser l'intelligence artificielle de notre terminal. Je vais pour ça lui donner toutes les informations donc je vais faire une
00:00:54 :recherche dans mon ssh pour ramener la commande ici avec le nom du serveur et la clé qui me permet de s'y connecter et je vais rentrer en mode agent donc avec le commande i. Donc je vais
00:01:06 :dire ce que je veux faire je souhaite copier la clé bdata.pem qui est dans mes documents sur le serveur aws distant auquel je me connecte avec cette ligne de commande. Donc on va lui dire juste
00:01:22 :ça et on va voir si avec ça déjà il arrive à trouver le fichier. Donc le fichier il le trouve bien dans mes documents ensuite il va voir donc s'il peut faire cet output donc je valide avec entrée et normalement ça devrait être bon je pense que c'est juste ça voilà c'est ça scp donc
00:01:41 :vous voyez il fait avec le tiret i il lui donne ma clé de permission qui me permet de me connecter et il va juste chercher la clé bdata.pem et il la copie dans le dossier utilisateur. Donc vous voyez
00:01:52 :en fait c'est un petit peu la syntaxe dont je ne me souvenais plus je savais plus qu'il fallait déjà mettre la source le target donc alors ça se fait là vous voyez il y a les deux points il y a le nom d'utilisateur le nom du serveur et ensuite c'est deux points et le nom du dossier donc là
00:02:07 :c'est tout simplement le tilde qui permet d'indiquer que c'est le dossier utilisateur. Donc là je vais pouvoir me connecter maintenant avec mon SSH sur mon serveur AWS donc là je sors je n'étais pas encore sorti donc je sors de cet agent mode on va faire SSH pour se reconnecter et là on va
00:02:26 :voir normalement devrait revenir voilà je fais un ls et là j'ai bien mon bdata.pem donc je vais faire un realpass de bdata.pem et comme ça on va récupérer le chemin complet vers cette clé de
00:02:38 :permission et je vais naviguer de nouveau à l'intérieur de Scraping Cinema dans Scraper dans source j'avais mon fichier d'environnement donc je vais faire vim.env et ici on va aller
00:02:49 :modifier ce chemin donc je supprime le chemin que j'avais ici et je le remplace par la clé à l'intérieur de mon serveur. Je valide je sors et on va revenir en fait puisque je veux utiliser mon
00:02:59 :proxy donc je reviens dans mon fichier d'environnement et là pour le usebrightdata je vais mettre true à la place de false je valide je sors et on va pouvoir tester avec brightdata notre script. Donc juste avant ça je viens réactiver mon réseau de proxy résidentiel sur
00:03:15 :l'interface de brightdata puisque je l'avais désactivé lorsque la vidéo était sortie donc je reviens dans mon terminal et on va pouvoir relancer notre fichier de Scraping donc je vais revenir au niveau du dossier principal et on va relancer notre Scraper alors j'ai pas sourcé mon environnement virtuel voilà et on va faire python3-mscraper source main et on regarde
00:03:35 :donc là il se connecte et ça fonctionne donc on a bien ici configuration des proxy brightdata utilisation du proxy brightdata et on a ici le script qui continue donc c'est un petit peu plus lent forcément comme on utilise un réseau de proxy mais là on est sûr de ne pas être bloqué
00:03:50 :par notre site si jamais on avait une détection des captchas ou quoi que ce soit ça serait réglé automatiquement par le réseau de proxy résidentiel de brightdata donc je vais pas aller jusqu'au bout je vais m'arrêter là mais ça fonctionne et avec le clonejob on a donc notre script qui va être
00:04:05 :exécuté automatiquement. Un dernier outil que je voulais vous montrer c'est un outil qui va vous permettre de vous assurer que votre script fonctionne avec le clonejob donc là pour l'instant on est un petit peu à l'aveugle à part aller voir sur le site tous les jours si on a bien dans
00:04:19 :la date ici la date du jour pour s'assurer que notre script a bien été exécuté si jamais le script n'est pas exécuté correctement avec le clonejob on ne va pas être averti. Donc moi celui
00:04:29 :que j'utilise il s'appelle healthcheck vous voyez que j'ai plusieurs choses qui sont en train de tourner ici sur docstring et ce que ça va vous permettre de faire c'est de créer en fait ici avec la syntaxe du clone donc là par exemple vous voyez ici on pourra mettre 0 et le 1 donc en fait
00:04:42 :vous allez créer cette configuration je vais le créer pour vous montrer donc on va dire webui je vais laisser ça comme ça save et là ce que ça va faire si on va voir dans les préférences de ce webui c'est que vous allez avoir une une adresse que vous allez pouvoir pinguer donc
00:04:55 :pinguer c'est tout simplement en fait vous allez faire une requête vers cette url et quand on va faire une requête vers cette url je vais faire dans un nouvel anglais pour vous montrer là vous voyez ça nous retourne juste ok et si je reviens ici on a bien le statut new qui est à up et donc
00:05:09 :ce que ça va faire en fait ici c'est qu'il va s'attendre tous les jours à 1h du matin à avoir un ping qui va être fait à cette url donc là ce qu'on peut faire c'est rajouter un curl vers cette url dans notre cronjob donc je vais revenir ici dans mon terminal on va faire crontab-e et dans
00:05:27 :notre scraper en fait c'est vrai qu'on avait mis notre scraper.sh donc justement comme je vous disais ça permet de faire ça directement dans le script donc je vais revenir ici je vais faire un vim de scraper.sh et ce qu'on va faire c'est qu'à la fin ici après cette ligne qui exécute notre
00:05:41 :script on va faire un curl vers cette url donc curl c'est tout simplement un outil qui nous permet de faire une requête sur linux donc je valide je sors de mon script et si on revient ici si je fais le curl vers ping vous allez voir qu'on va avoir un nouveau ici HTTPS GET voilà donc on a le curl
00:05:58 :vous voyez que là on était avec Mozilla donc on voyait ici en fait le user agent qui est utilisé ainsi que l'adresse IP et là effectivement on a bien l'adresse IP de mon serveur AWS avec curl qui a été utilisé donc là ce que ça va faire c'est que si jamais il y a un problème si le
00:06:13 :cronjob n'est pas exécuté et bien on va avoir un grace time de une heure donc pendant une heure il va rien faire parce qu'en fait on peut avoir des fois je sais pas un petit problème de réseau des choses comme ça donc là une heure c'est quand même assez long ça peut être plus intéressant si
00:06:26 :on a des par exemple des programmes qui tournent toutes les minutes si au bout de 30 secondes il y a rien qui s'est passé ça peut être problématique on utilise pas mal ça aussi pour les uptime donc pour savoir si votre site plante vous faites un ping toutes les minutes et si au bout de deux
00:06:39 :minutes par exemple le ping n'a pas été fait c'est qu'il y a eu un problème donc là en fait à une heure il va s'attendre à avoir un ping qui va être fait si ce n'est pas le cas il va attendre une heure et après une heure s'il n'y a toujours pas eu de nouvelles et bien il va nous avertir
00:06:51 :donc vous voyez on peut être notifié de différentes façons moi j'ai des notifs sur mon serveur discord ou avec pushover donc pushover c'est en fait pour avoir des notifications sur votre téléphone sur votre appareil mobile ça peut être tablette téléphone etc donc comme ça vous êtes averti qu'il y a un problème vous pouvez aussi recevoir un mail si vous voulez il y a plein de façons
00:07:10 :d'être notifié donc comme ça ça vous permet voilà d'être averti si jamais il y a un problème pour pouvoir aller le régler sur votre serveur on peut réussir d'utiliser d'autres services comme sentry qui permettent en plus d'avoir un log des erreurs là pour l'instant on a fait quelque chose d'assez simple on n'a aucun logging rien donc après s'il y a des problèmes on sera juste

Utiliser le proxy de Bright Data

Prérequis

Rechercher sur le site

Utiliser le proxy de Bright Data

Inscris-toi

Rechercher sur le site