Les bases du scrapping de données - Récupérer la valeur totale de la bibliothèque

00:00:00 :Donc on arrive à la fin de notre script, on va vérifier maintenant qu'on arrive bien à récupérer le prix des livres et qu'on arrive bien à faire le total, donc pour que ce soit pas trop long je vais faire le test sur 2-3 pages et on va voir si tout fonctionne
00:00:12 :et après on pourra lancer sur les 50 pages pour voir si tout fonctionne sur l'entièreté de la bibliothèque.Donc là ce que je vais faire, je vais juste faire un petit compteur, on va dire page number égale à 0 et on va incrémenter ce page number, voilà ici page number plus
00:00:28 :égale à 1 et on va dire if page number plus grand que 2, on va faire un break.Donc je vais commencer déjà par récupérer all books url, je vais mettre un point de débug ici, je vais lancer mon script, alors je vais appeler le main puisque là je fais
00:00:42 :ça ici, donc je vais à la place lancer le main et on va vérifier qu'on a déjà toutes les url, donc je lance, on récupère bien les 3 premières pages, là on a vu ici le scrapping avec notre info, donc le logger qui nous indique scrapping page, scrapping page 2, 3, ça fonctionne, là on a 60 éléments dans notre liste, donc c'est bon on va continuer,
00:01:04 :on arrive dans notre boucle, on récupère le prix du premier livre, ça fonctionne,on continue, on récupère le prix du deuxième livre, ça fonctionne, troisième livre etc,donc on va pas faire chaque livre comme ça avec le step over à chaque fois, on va cliquer sur resume pour voir ce que ça donne, on va retourner dans notre console, et là on
00:01:24 :a rien donc on va faire un petit logger.info pour vérifier que ça fonctionne bien, parce que là on a aucune information, donc dans le get book price ici, je vais quand même mettre un logger info quelque part pour qu'on sache ce qui se passe.
00:01:35 :Donc ici dans le try on va faire logger.info et on va dire scrapping book, et je vais faire un fstring scrapping book at, on va dire plutôt get book price at, et on va mettre l'url ici.
00:01:51 :Donc je relance mon script, je vérifie que tout fonctionne, on a l'info, on récupère déjà les trois premières pages, et ensuite on récupère le book price à partir des urls,donc ça fonctionne, ça fonctionne, on a bien ce qu'il faut, et là on a des erreurs.
00:02:04 :Alors vous voyez, erreur lors de la requête, donc vous voyez exactement ce que, c'était pas prévu, mais c'est exactement ce que je voulais potentiellement vous montrer, c'est que quand on a des erreurs, on les voit, on va les voir également si je vais voir dans mon fichier de log, voilà ici on a les erreurs, voilà, erreur HTTP, donc vous voyez qu'ici
00:02:20 :on n'a pas les infos, on n'a pas l'info, ça ne nous sert pas à grand chose en fait,nous ce qu'on veut voir c'est erreur, donc là on voit qu'on a une erreur à la ligne 101, donc si je vais à la ligne 101, c'est une erreur sur la requête, donc qu'est-ce
00:02:32 :qu'on a comme erreur, je retourne voir ici, not found for url, donc 404, on a une erreur 404 à l'url, ah oui parce que ok, je pense que je vois le problème, je reviens, oui ok, alors là en fait on a un slash catalogue et on l'a plus après, et si je vais voir
00:02:50 :l'url, effectivement là on a un 404, donc en fait c'est un problème avec l'url et je pense, si je reviens voir là, je pense que c'est le même problème qu'on avait avec le get next page url, c'est que voilà, là ici pareil, en fait on donne l'url de base
00:03:03 :et l'url est différente selon, donc si je reviens voir sur chrome, l'url va être différente en fonction des pages, puisque là sur la page d'accueil, on va concatener, si je vais voir le inspect ici, on a catalogue slash set me free, et si je vais voir sur la page
00:03:18 :2, hop, et que je regarde là, in her wake, là voilà ok, alors là on a une différence vous voyez, ici on a plus le catalogue, puisque là on a le catalogue en fait dans l'url ici, donc l'url relatif ne contient plus le catalogue, donc nous en fait ce qu'on
00:03:31 :fait c'est qu'on fait juste ajouter à l'url de base qui est books to scrap, on ajoute le in her wake et il manque le catalogue, donc là en fait ce qu'il faut faire c'est exactement la même chose que ce qu'on avait fait ici avec le get next page, c'est qu'il
00:03:43 :faut lui passer l'url, donc je vais la rajouter ici, url string, on va rajouter le paramètre aussi, hop paramètre url, url de la page qui contient les livres, et là à la place de base url, on va mettre url, et on va la passer également si je reviens, donc désolé
00:04:00 :je vais un petit peu vite, je vais ralentir, donc on a rajouté un paramètre url à get all books url on page, donc c'est quand on arrive sur une page et qu'on veut récupérer les url de tous les livres sur la page, comme l'url de la page est différent et qu'on
00:04:13 :a une url relative qui ne contient pas le catalogue, on ne peut pas repartir de l'url de base, donc il faut passer cette url à notre fonction, donc là j'ai juste rajouté le paramètre dans la docstring et je l'ai remplacé ici quand on fait le url join pour ne pas utiliser l'url de base mais l'url qu'on va passer, donc ça il faut la passer
00:04:29 :bien entendu ici aussi quand on va récupérer get all books url, on passe le tree et on va aussi lui passer donc l'url de la page actuelle, comme ça on va pouvoir bien concaténer l'url de la page donc slash catalogue slash page 2 si je me souviens bien, si je vais
00:04:43 :voir ici, donc on va sur la page 3 par exemple, page 3 ici, on a catalogue slash page 3 donc on va concaténer tout ça avec l'url relatif, donc je pense que c'est bon, je vais relancer le script pour vérifier, si on a une erreur de toute façon avec la gestion d'erreur qu'on
00:05:01 :a faite, on devrait l'avoir, donc get book price, là on a bien le catalogue qui est correctement mis, je continue et suspense, et ça fonctionne, je reconnais le inhawake qui est l'url qui ne fonctionnait pas et là effectivement ça fonctionne, on a plus de problème, donc getting price, ça fonctionne parfaitement, et là ce qu'on pourrait faire
00:05:23 :aussi, parce que là on fait juste get book price, on pourrait changer le logger, on pourrait le changer ou en mettre un autre dans le get book price, on pourrait le mettre à la fin, on pourrait le déplacer ici, faire une variable intermédiaire pour ça, donc là j'utilise le raccourci clavier option commande V qui me permet de créer une variable
00:05:39 :intermédiaire très facilement, vous pouvez retrouver le raccourci en faisant clic droit et en allant dans refactor, introduce variable ici et ça va créer une variable, donc price stock vous voyez en plus il a trouvé un bon nom directement, et là du coup on va dire get book price at 2rl found up et là on va mettre price stock, voilà, ouais on peut
00:05:59 :même, oui ok je vais laisser ça comme ça, donc je relance et là comme ça dans notre information on a directement, voilà found 1138, tac tac tac, ok super, donc ça fonctionne bien, on va pouvoir lancer un test complet et vérifier qu'on a bien récupéré le prix total, donc je vais faire un prime de tout ça, et normalement là encore comme on l'a
00:06:18 :vu, vu qu'on a géré les erreurs d'une façon qui permet de continuer le script,si j'ai bien fait ça, même s'il y a des problèmes comme vous l'avez vu, là on avait des erreurs 404 mais ça n'a pas arrêté le script, donc si on a des erreurs quelles qu'elles soient, il va les loguer mais ça va aller au bout, et s'il y a des erreurs
00:06:34 :je pourrais aller voir les erreurs dans le fichier de log, alors bien sûr j'ai oublié une chose importante, là on voit que j'ai un nombre qui n'est pas cohérent et c'est parce que tout simplement j'ai laissé mon page number ici avec le break au bout de 2-3 pages, donc forcément ça n'a pas donné grand chose, donc je vais relancer le script,
00:06:51 :n'oubliez pas d'enlever cette condition si vous l'aviez rajoutée pour bien scraper toutes les pages, donc là si je continue, on voit qu'on va bien continuer jusqu'à la page 50 comme ceci.
00:06:59 :Voilà le script a donc terminé, alors là on a eu un petit conflit entre mon print et le dernier logger, mais voilà on a bien la valeur qui est affichée, qui est cohérente avec les autres tests que j'avais fait, on est donc à 300 188,27€ comme prix total de la bibliothèque et on voit ici qu'on a bien réussi à scraper, on n'a pas d'erreur,
00:07:19 :tous les logs que j'ai c'est des infos et je suis allé voir dans le fichier de log et on n'a aucune erreur non plus, donc on a bien un script qui fonctionne dans ce cas-ci avec 100% des requêtes qui ont été correctement effectuées, on a donc la première partie
00:07:32 :qui a bien fonctionné avec le scrapping de toutes les pages, donc on récupère à partir de la page d'index ensuite toutes les autres pages, on a notre logger qui nous indique par la suite avec ce log ici qu'aucun bouton next n'a été trouvé, donc c'est logique puisqu'on arrive à la page 50 et ensuite on continue avec le scrapping des 1000 livres
00:07:50 :avec à chaque fois la récupération du prix total en fonction du prix et de la quantité en stock.Donc voilà notre script fonctionne et gère correctement les erreurs qu'on a identifiées comme possible à l'intérieur de notre script.

Récupérer la valeur totale de la bibliothèque

Inscris-toi

Rechercher sur le site