Scraping avec Python : La Formation Complète

Docstring February 15, 2024
Video Thumbnail
Docstring Logo

Docstring

@docstring

About

Tutoriels, trucs & astuces, bonnes pratiques autour du langage Python, de différents framework (Django, Qt for Python...) et du développement en général. Chaîne YouTube officielle de https://www.docstring.fr.

Video Description

🚀 20$ offerts sur Bright Data en créant un compte avec ce lien : https://brdta.com/docstring Retrouvez Bright Data sur leur chaîne YouTube : @BrightData Apprenez le scraping en partant de 0 avec cette formation complète. Cette formation est réalisée avec Python mais toute la théorie du scraping et du contournement des blocages peut s'appliquer à n'importe quel langage permettant de faire du scraping. ---------------------------------------------------------- PRÉREQUIS : Pour suivre cette formation avec Python, vous devez maîtriser les bases du langage : https://www.youtube.com/watch?v=LamjAFnybo0 ---------------------------------------------------------- 🔗 Sources des scripts https://github.com/DocstringFr/formation-scraping-youtube 🖥️ Créez votre VPS sur Infomaniak https://www.infomaniak.com/fr/hebergement/vps-cloud?utm_source=youtube&utm_medium=social&utm_campaign=docstring&utm_term=65aa5df4e7416 🔗 Ma formation complète Python sur Udemy (+60h de formation) ● https://bit.ly/3iGZu9a 🔖 Abonne-toi à Docstring ● https://www.docstring.fr/formules/?utm_source=youtube&utm_campaign=scraping-complet 💬 Rejoins-nous sur le serveur Discord ● https://www.docstring.fr/discord/?utm_source=youtube&utm_campaign=scraping-complet ---------------------------------------------------------- ===== CHAPITRES ===== 00:00:00 Introduction 00:03:13 Le programme de la formation 00:07:58 Définition du scraping 00:08:56 Les prérequis 00:11:06 Les obstacles (et la solution) 00:13:20 PARTIE 1 : les bases du scraping 00:18:26 Récupérer le contenu d'une page avec requests 00:24:35 Analyser le contenu d'une page avec BeautifulSoup 00:33:41 Récupérer des informations avec BeautifulSoup 00:43:03 Analyser la page d'accueil des livres 00:54:56 À vous de jouer ! 01:04:32 Exercices simples : Introduction 01:06:08 Récupérer les catégories avec un seul livre 01:08:40 Solution 01:32:01 Récupérer les livres notés 1 étoile 01:35:44 Solution 02:08:18 Exercice avancé : Introduction 02:09:08 Énoncé de l'exercice 02:10:23 Présentation de Selectolax et Loguru 02:18:04 Préparation d'un cahier des charges 02:28:32 Création du corps du script 02:47:46 Récupération du prix d'un livre 03:12:41 Récupérer toutes les URL sur une page 03:24:48 Récupérer l'URL de la prochaine page 03:30:54 Récupérer toutes les URL de la librairie 03:38:44 Récupérer la valeur totale de la librairie 03:46:51 Optimisation de notre script avec les sessions 03:53:09 Conclusion 03:53:59 PARTIE 2 : contourner les obstacles 03:55:57 Ce que dit la loi 03:56:38 Les CGU 03:59:25 Le RGPD 04:00:49 L'affaire entreparticuliers.com VS Leboncoin 04:01:58 Exemples de scraping licite et illicite 04:04:59 Le fichier robots.txt https://robots-txt.com/ 04:09:10 Entrevue avec Rony SHALIT https://brightdata.fr/trustcenter https://help.brightdata.com/hc/en-us/articles/11439997100945-Bright-Data-s-Site-Health-Monitor 04:46:29 Les blocages techniques 04:50:43 Les blocages volontaires 04:52:04 Le blocage par limitation de requêtes 04:59:18 Le blocage avec le user-agent 05:04:55 Présentation de Playwright 05:10:46 Utiliser playwright pour afficher le javascript 05:20:14 Interagir avec le DOM 05:26:22 Les méthodes indispensables à connaître 05:37:45 La solution Bright Data 05:38:43 Tour d'horizon de la plateforme 05:45:04 Créer votre compte sur Bright Data 05:48:28 Utiliser le réseau de proxy résidentiel 05:57:59 Utiliser le web unlocker 06:02:12 Utiliser le scraping browser 06:09:47 PARTIE 3 : Récupérer des données sur AirBnB 06:11:01 Préparation d'un scraping éthique 06:15:04 Analyse du site pour préparer le scraping 06:20:44 Créer le projet et installer les librairies 06:24:21 Scraping simple avec requests 06:29:15 Sauvegarder le HTML sur le disque 06:34:57 Récupérer le HTML depuis le disque 06:42:39 Récupérer les données de prix 07:03:49 Lancer le script en ligne de commande 07:06:11 Scraping avancé avec Playwright 07:15:46 Passer à travers toutes les pages 07:25:09 Utiliser le scraping browser de Bright Data 07:33:44 Automatiser l'ouverture du débogueur 07:39:11 Minimiser la bande passante 07:43:20 Naviguer jusqu'à la page des recherches 07:52:09 Passer au mois suivant 08:09:57 Faire défiler les mois 08:22:14 Récupérer le prix et finaliser le script 08:34:01 PARTIE 4 : Système d'alerte e-commerce 08:35:16 Les outils utilisés 08:38:01 Préparation d'un scraping éthique 08:39:55 Récupérer le HTML avec requests 08:52:47 Ajouter les variables d'environnement 08:54:57 Utiliser le Web Unlocker 09:00:09 Garder l'historique des valeurs sur le disque 09:04:45 Comparer la valeur actuelle avec la précédente 09:08:17 Ajouter la fonction d'alerte avec Pushover 09:11:27 Ajouter le logger 09:17:44 Terminer la fonction principale 09:28:02 Envoyer les fichiers sur le VPS 09:32:41 Créer un Cron Job 09:39:17 Enlever l'avertissement avec urllib 09:40:45 Ajouter les alertes Sentry 09:50:22 Outro

Python Web Scraping Essentials

AI-recommended products based on this video

Loading...
Freenove Ultimate Starter Kit for BBC micro bit (V2 Included), 316-Page Detailed Tutorial, 225 Items, 44 Projects, Blocks and Python Code

Freenove Ultimate Starter Kit for BBC micro bit (V2 Included), 316-Page Detailed Tutorial, 225 Items, 44 Projects, Blocks and Python Code

(382)
$94.95
PrimeFREE delivery Sat, Jun 14
Loading...
Lamicall Adjustable Phone Stand for Desk - 360 Rotating Foldable Cell Phone Holder Desktop Portable Cellphone Stand, Office Desk Accessories for iPhone 17 16 15 14 Pro Max, 4-10”Smartphones, iPad Mini Global Recycled Standard

Lamicall Adjustable Phone Stand for Desk - 360 Rotating Foldable Cell Phone Holder Desktop Portable Cellphone Stand, Office Desk Accessories for iPhone 17 16 15 14 Pro Max, 4-10”Smartphones, iPad Mini Global Recycled Standard

(1,781)
$13.99
FREE delivery Sat, Apr 11 on your first order
300+ bought in past month
Loading...
Arrily Face Roller - 24 Tourmaline Stones Uplift Beauty Wand for Women, Facial Sculpting & Tightening Tool, Elarique Beauty Roller, 360° Rotating Facial Roller for Face, Eye, Chin, Neck, Body (1 PCS)

Arrily Face Roller - 24 Tourmaline Stones Uplift Beauty Wand for Women, Facial Sculpting & Tightening Tool, Elarique Beauty Roller, 360° Rotating Facial Roller for Face, Eye, Chin, Neck, Body (1 PCS)

(0)
$25.99
$6.99 delivery Jul 2 - 23
Loading...
Timewall Car Headrest Tablet Mount, Backseat Seat Universal Tablet Cell Phone Holder 360° Swivel Rotating Angle Adjustable Stretchable for iPad iPhone, Samsung, Switch, 5-11" Tablet Phone Black

Timewall Car Headrest Tablet Mount, Backseat Seat Universal Tablet Cell Phone Holder 360° Swivel Rotating Angle Adjustable Stretchable for iPad iPhone, Samsung, Switch, 5-11" Tablet Phone Black

(1,454)
$22.99
FREE delivery Tue, Jun 17 on your first order
50+ bought in past month
Loading...
Procase Protective Case for Lenovo Tab M11 11 Inch 2024, Rugged Heavy Duty Shockproof Rotating Kids Cover with 360° Rotate Kickstand & Shoulder Strap for Tab TB330FU TB330XU -Black

Procase Protective Case for Lenovo Tab M11 11 Inch 2024, Rugged Heavy Duty Shockproof Rotating Kids Cover with 360° Rotate Kickstand & Shoulder Strap for Tab TB330FU TB330XU -Black

(80)
$36.99
FREE delivery Tue, Jun 17
Loading...
Full Body Contour Device with Heat & Ems, 2026 New Multiple Heated Muscle Scraping Tool, Electric Fascia Knife for Belly, Arm, Waist, Leg

Full Body Contour Device with Heat & Ems, 2026 New Multiple Heated Muscle Scraping Tool, Electric Fascia Knife for Belly, Arm, Waist, Leg

(0)
$62.99
$5.54 delivery Jan 20 - Feb 9
Loading...
JUKMO Tactical Belt, Military Hiking Rigger 1.5" Nylon Web Work Belt with Heavy Duty Quick Release Buckle

JUKMO Tactical Belt, Military Hiking Rigger 1.5" Nylon Web Work Belt with Heavy Duty Quick Release Buckle

(12,473)
$23.98
FREE delivery Sat, Jun 14 on your first order
700+ bought in past month