Semalt - Comment gratter les pages Web?

Beautiful Soup est une bibliothèque Python largement utilisée pour gratter des pages Web en créant un arbre d'analyse à partir de documents XML et HTML. Le grattage Web, une technique d'extraction de données à partir de sites Web et de pages, est largement utilisé dans les domaines de l'analyse et de la gestion des données. Dans la plupart des cas, le langage de programmation Python est une condition préalable à la science des données.

Python 3 dispose d' outils et de modules de grattage que vous pouvez appliquer à votre projet de gestion des données. Fonctionnant actuellement sous le nom de Beautiful Soup 4, ce module est compatible avec Python 3 et Python 2.7. Le module Beautiful Soup 4 est également capable de créer un arbre d'analyse pour la soupe de tag non fermée. Dans ce didacticiel, vous apprendrez à gratter la page et à écrire les données récupérées dans un fichier CSV.

Commencer

Pour commencer, configurez un serveur ou un environnement de codage Python local sur votre PC. Vous devez également installer le module Beautiful Soup and Requests sur votre machine. La connaissance de l'utilisation des deux modules est également une condition préalable nécessaire. La connaissance du balisage et de la structure HTML est également un avantage supplémentaire.

Comprendre vos données

Dans ce contexte, des données réelles de la National Gallery of Art seront utilisées pour vous aider à comprendre comment utiliser Beautiful Soup 4. La National Gallery of Art comprend 120 000 pièces réalisées par environ 13 000 artistes. The Art est basé à Washington DC, États-Unis.

L'extraction de données Web avec Beautiful Soup n'est pas si compliquée. Par exemple, si vous vous concentrez sur la lettre Z, marquez et notez le prénom sur la liste. Dans ce cas, le prénom est Zabaglia, Niccola. Par souci de cohérence, indiquez le nombre de pages et le nom du dernier artiste sur cette page.

Comment importer des bibliothèques de requêtes et de belles soupes

Pour importer des bibliothèques, activez votre environnement de programmation Python 3. Vérifiez que vous êtes dans le même répertoire que votre environnement de programmation. Exécutez la commande suivante pour commencer. my_env / bin / activate.

Créez un nouveau fichier et commencez à importer les bibliothèques Beautiful Soup and Requests. La bibliothèque de requêtes vous permettra d'utiliser HTTP dans vos programmes Python dans des formats lisibles. Belle soupe, d'autre part, fonctionne pour gratter les pages rapidement. Utilisez bs4 pour importer Beautiful Soup.

Comment collecter et analyser une page Web

À l'aide des demandes, collectez l'URL de votre première page. L'URL de la première page sera affectée à la page variable. Créez un objet BeautifulSoup à partir de requêtes et analysez l'objet à partir de l'analyseur Python.

Dans ce tutoriel, le but est de collecter des liens et les noms des artistes. Par exemple, vous pouvez collecter les dates et les nationalités des artistes. Pour les utilisateurs de Windows, faites un clic droit sur le prénom de l'artiste. Dans ce cas, utilisez Zabaglia, Niccola. Pour les utilisateurs de Mac OS, appuyez sur "CTRL" et cliquez sur le nom. Cliquez sur le menu "Inspecter l'élément" qui apparaît sur votre écran pour accéder aux outils des développeurs Web. Imprimez les noms de l'artiste pour que Beautiful Soup analyse un arbre rapidement.

Suppression des liens inférieurs

Pour supprimer les liens du bas de votre page Web, inspectez le DOM en cliquant avec le bouton droit sur l'élément. Vous identifierez que les liens se trouvent sous un tableau HTML. En utilisant Beautiful Soup, utilisez la "méthode de décomposition" pour supprimer les balises de l'arbre d'analyse.

Comment extraire du contenu d'une balise

Vous n'avez pas besoin d'imprimer l'intégralité de la balise de lien, utilisez Beautiful Soup pour supprimer le contenu d'une balise. Vous pouvez également capturer des URL associées aux artistes en utilisant Beautiful Soup 4.

Capture de données récupérées dans un fichier CSV

Le fichier CSV vous permettra de stocker des données structurées dans un texte brut, un format qui est principalement utilisé pour les fiches techniques. Des connaissances sur la gestion des fichiers de texte brut en Python sont recommandées.

L'extraction de données Web est utilisée pour gratter des pages et obtenir des informations. Soyez attentif aux sites Web dont vous extrayez les informations. Certains sites Web dynamiques restreignent l'extraction de données Web sur leurs sites. Racler la page avec Beautiful Soup et Python 3 est aussi simple que cela.