Diagramme de présentation
Inscris-toi
(c'est gratuit !)
Un compte est nécessaire pour participer aux discussions.
Créer un compte00:00:00 :Avant de rentrer dans les lignes de code, je vais revenir très rapidement sur ce qu'on a fait dans la première partieet vous présenter un petit diagramme de ce qu'on va faire dans cette seconde partie.
00:00:07 :Dans la première partie, on avait donc récupéré des données au format JSON,donc ça ressemble à un fichier comme celui-ci.On avait donc créé un script avec les bibliothèques nécessaires.
00:00:16 :On avait également configuré le proxy de Bright Data pour pouvoir ne pas être bloquési jamais il y avait des sites web qui nous mettent des captchas ou qui limitent notre adresse IP.
00:00:26 :Avec le proxy de Bright Data, tout ça a été débloqué automatiquement.Ensuite, on avait donc la session de request qui nous permettait, grâce à un système,d'attendre un certain nombre de temps entre chaque requête pour faire un scrapping éthique,donc pour ne pas envoyer 30 requêtes à la seconde.
00:00:41 :Et si la réponse reçue était OK, on avait ensuite l'extraction et le traitement des donnéespour les convertir au format JSON avec des data classes qui nous permettaient de facilement gérer le format de sortie de nos données.
00:00:53 :On avait également une gestion des erreurs pour qu'en cas d'erreur,que ce soit sur les requêtes ou sur le format,on ait tout ça qui soit géré automatiquement pour pouvoir réessayer les requêtes dans ce cas-ci.
00:01:04 :Maintenant, qu'est-ce qu'on va faire dans la deuxième partie ?Un petit diagramme pour vous montrer à quoi va ressembler notre site web au niveau technique.
00:01:11 :Au niveau visuel, ça va ressembler à ça.On aura une barre de recherche, on va filtrer par genre,on aura également l'indication de la dernière mise à jour des donnéeset on pourra voir en un coup d'œil les horaires de tous les films dans les cinémas autour de chez moi.
00:01:23 :Le scrapping, il sera exécuté quotidiennement ici avec un clone job.On a notre script de scrapping ici via le réseau proxy de Brackdataqui va récupérer les données et sauvegarder tout ça dans un fichier JSON.
00:01:35 :Tout ça, ça va être sauvegardé sur le disque.On ne va pas s'embêter avec une base de données, il y a très peu d'informations ici.
00:01:40 :Là encore, vous allez voir qu'avec une stack très minimaliste,on peut avoir un site web 100% fonctionnel sans aucun temps de latence.Ne vous embêtez pas à commencer à configurer du Postgres ou des choses comme çajuste pour stocker quelques informations de JSON.
00:01:54 :Si vous commencez à avoir des milliers de films avec beaucoup de requêtes,ça peut valoir le coup.Là, dans ce cas-ci, on a une dizaine de films avec chacun une petite cinquantaine maximum d'horaireset on va accéder à tout ça uniquement en local pour notre propre usage,donc aucun besoin de base de données ici.
00:02:09 :Pareil pour le site web, on va rester sur quelque chose de très simple.On va créer une instance sur AWS qui va héberger et servir notre site web Flasket on va exposer ce site web à travers le port 5000 pour pouvoir y accéder localement.
00:02:22 :Donc on ne va pas créer un proxy reverse avec NGNX, on ne va pas faire un unicorn,on ne va pas faire toutes ces choses que j'ai pu faire dans d'autres vidéos.
00:02:30 :On va rester très simple ici, mais ça va vous montrer à quel point avec juste un fichier JSON,un serveur Flask simple et une instance de AWS,donc un serveur qui va permettre d'exécuter le scrapping quotidiennementet de servir en continu notre site web,et bien on peut accéder à cette interface par la suite sur notre ordi en local.
scraping-cinema-main.zip
Ce n'est pas fini...
✋
Tu as complété % du parcours 🔥
Termine l'intégralité de la formation pour pouvoir débloquer ton attestation de réussite.