Scraping Cinéma : présentation des données

00:00:00 :Avant de rentrer dans les lignes de code, je vais revenir très rapidement sur ce qu'on a fait dans la première partie et vous présenter un petit diagramme de ce qu'on va faire dans cette seconde partie.
00:00:07 :Dans la première partie, on avait donc récupéré des données au format JSON,donc ça ressemble à un fichier comme celui-ci.On avait donc créé un script avec les bibliothèques nécessaires.
00:00:16 :On avait également configuré le proxy de Bright Data pour pouvoir ne pas être bloqué si jamais il y avait des sites web qui nous mettent des captchas ou qui limitent notre adresse IP.
00:00:26 :Avec le proxy de Bright Data, tout ça a été débloqué automatiquement.Ensuite, on avait donc la session de request qui nous permettait, grâce à un système,d'attendre un certain nombre de temps entre chaque requête pour faire un scrapping éthique,donc pour ne pas envoyer 30 requêtes à la seconde.
00:00:41 :Et si la réponse reçue était OK, on avait ensuite l'extraction et le traitement des données pour les convertir au format JSON avec des data classes qui nous permettaient de facilement gérer le format de sortie de nos données.
00:00:53 :On avait également une gestion des erreurs pour qu'en cas d'erreur,que ce soit sur les requêtes ou sur le format,on ait tout ça qui soit géré automatiquement pour pouvoir réessayer les requêtes dans ce cas-ci.
00:01:04 :Maintenant, qu'est-ce qu'on va faire dans la deuxième partie ?Un petit diagramme pour vous montrer à quoi va ressembler notre site web au niveau technique.
00:01:11 :Au niveau visuel, ça va ressembler à ça.On aura une barre de recherche, on va filtrer par genre,on aura également l'indication de la dernière mise à jour des données et on pourra voir en un coup d'œil les horaires de tous les films dans les cinémas autour de chez moi.
00:01:23 :Le scrapping, il sera exécuté quotidiennement ici avec un clone job.On a notre script de scrapping ici via le réseau proxy de Brackdata qui va récupérer les données et sauvegarder tout ça dans un fichier JSON.
00:01:35 :Tout ça, ça va être sauvegardé sur le disque.On ne va pas s'embêter avec une base de données, il y a très peu d'informations ici.
00:01:40 :Là encore, vous allez voir qu'avec une stack très minimaliste,on peut avoir un site web 100% fonctionnel sans aucun temps de latence.Ne vous embêtez pas à commencer à configurer du Postgres ou des choses comme ça juste pour stocker quelques informations de JSON.
00:01:54 :Si vous commencez à avoir des milliers de films avec beaucoup de requêtes,ça peut valoir le coup.Là, dans ce cas-ci, on a une dizaine de films avec chacun une petite cinquantaine maximum d'horaires et on va accéder à tout ça uniquement en local pour notre propre usage,donc aucun besoin de base de données ici.
00:02:09 :Pareil pour le site web, on va rester sur quelque chose de très simple.On va créer une instance sur AWS qui va héberger et servir notre site web Flask et on va exposer ce site web à travers le port 5000 pour pouvoir y accéder localement.
00:02:22 :Donc on ne va pas créer un proxy reverse avec NGNX, on ne va pas faire un unicorn,on ne va pas faire toutes ces choses que j'ai pu faire dans d'autres vidéos.
00:02:30 :On va rester très simple ici, mais ça va vous montrer à quel point avec juste un fichier JSON,un serveur Flask simple et une instance de AWS,donc un serveur qui va permettre d'exécuter le scrapping quotidiennement et de servir en continu notre site web,et bien on peut accéder à cette interface par la suite sur notre ordi en local.
00:02:48 :Donc on va voir tout ça, on va voir le cron job, on va voir la création du serveur AWS,on va voir la mise en place du scrapping avec Bright Data,donc ça on l'avait déjà fait dans la première partie,mais on va s'assurer que tout fonctionne avec les variables d'environnement,
00:03:00 :avec également le serveur Flask qui va tourner en continu,avec un service Systemd qui va être mis en place également,donc plein de petites choses comme ça qui vont être ensemble pour faire ce site web et qui va être accessible en tout temps sur mon ordi, donc tout sera 100% automatisé.

Diagramme de présentation

Prérequis

Rechercher sur le site

Diagramme de présentation

Inscris-toi

Rechercher sur le site