Utilisation de Google Sheets comme grattoir Web de base - Guide de PromptCloud

Publié: 2022-11-08
Table des matières afficher
Google Suite en tant que Web Scraper
Syntaxe pour extraire des données Web dans des feuilles
ImporterXML
ImportHTML
ImportFEED
ImportData et ImportRange
Importation de données à partir de sites Web
Fiche Google : Tableaux
En-têtes et titres
Flux de contenu
Limitations de l'utilisation de feuilles comme grattoir
Conclusion

Google Suite en tant que Web Scraper

Les feuilles Google ont des fonctionnalités fantastiques et une facilité d'accès. Il fait la plupart du travail lourd pour extraire des points de données et des sections spécifiques. Le grattage des feuilles Google pour les données du site Web fonctionne en utilisant la syntaxe d'importation et en vous familiarisant avec le script Google ou un module complémentaire Python. Comme l'indique la recherche, les documents de grattage Web fonctionnent mieux avec des personnes qui analysent régulièrement des sites Web et des forums. Nos ingénieurs de données et nos responsables de produits de première ligne utilisent des produits tels que PromptCloud, pour une expérience plus robuste, pour l'analyse des données Web. Dans ce blog, vous trouverez des informations sur l'utilisation des formules de la suite Google, sur l'importation de données à partir de sites Web et sur les limites de l'utilisation de Google Sheets comme grattoir Web. Mais, d'abord, commençons par regarder les formules pour structurer les données.

Syntaxe pour extraire des données Web dans des feuilles

Vous trouverez ci-dessous les formules de grattage Web que vous pouvez utiliser pour extraire des données.

ImporterXML

Cette syntaxe est utilisée pour obtenir des données à partir d'une URL structurée construite sur des flux HTML et XML. Vous pouvez obtenir des détails sur les titres des pages, les dates et les noms des auteurs. À l'aide d'une requête, vous pouvez décider de la section de la page Web à gratter. Cette fonction prend également en charge les flux XML CSV et ATOM sans utiliser de code. Scannez l'URL de la page Web et utilisez XPath pour trouver la section permettant de naviguer dans les éléments. Les données numérisées peuvent être attribuées à un document XML. Commencez avec un nouveau document de feuille Google et ajoutez l'URL de la page Web dont vous souhaitez récupérer les données. Lorsque vous trouvez le Xpath de l'élément, utilisez la syntaxe ImportXML et obtenez des données Web structurées. Survolez la section, accédez aux options, cliquez sur inspecter et choisissez copier Xpath pour extraire les données dans la nouvelle feuille.

Introduisez l'URL Xpath dans les feuilles avec quelques ajustements mineurs, surtout si vous utilisez Chrome. Les URL copiées à partir de ce navigateur entourent toujours le chemin entre doubles crochets. Cependant, pour gratter le site Web, les doubles crochets doivent être remplacés par un guillemet simple. Modifiez également le titre de la page pour commencer et envoyez la requête pour capturer les principaux éléments de la page Web. En quelques secondes, la requête renvoie les informations de la fiche Google dans un format structuré.

ImportHTML

Cette syntaxe est principalement utilisée pour créer des listes et importer des tableaux à partir du site Web. Cette fonction importera non seulement la table facilement, mais continuera également à mettre à jour les données extraites à intervalles réguliers. Une analyse de la syntaxe HTML pour les points de données tels que la balise de tableau, la liste non ordonnée et la balise de liste ordonnée dans le texte pour copier les données hors de la page Web. Pour importer des données via HTML, l'URL doit être entourée de guillemets doubles avec une indexation de table appropriée. Le processus devient délicat si vous avez plus d'un tableau à analyser sur la page. C'est ici que vous devrez effectuer l'analyse à l'aide de la console développeur ou du menu à l'aide de F12 sur le clavier. Copiez la formule dans la console pour indexer les éléments.

Pour importer uniquement des colonnes ou des lignes spécifiques, vous pouvez utiliser le filtre dans la syntaxe pour extraire les données. En tant que paramètre général de Google Suit, le document est actualisé toutes les heures. Cependant, si vous avez besoin de données en temps réel, vous pouvez configurer la vitesse de rafraîchissement en conséquence. Pour automatiser l'actualisation de la page, l'utilisation d'un déclencheur comme code.gs et myfunction fera l'affaire. Il envoie également des notifications si le déclencheur cesse de fonctionner ou cesse d'actualiser les tables. Google Sheets peut gérer jusqu'à 50 requêtes récurrentes ImportHTML.

ImportFEED

Cette syntaxe est utilisée pour numériser le contenu d'une page directement dans les feuilles Google. ImportFeed vous donne accès à un flux RSS et granulaire pour importer automatiquement des données. Vous envoyez une requête pour importer les données à l'aide de codes tels que StartRow pour sélectionner la même ligne pour copier les données et NumberRow pour quantifier la quantité de données numérisées. Lorsque vous spécifiez la plage de cellules, les données sont importées à partir des flux Atom via un chemin d'URL spécifié. Les données récupérées par cette syntaxe sont utiles pour comprendre les blogs et les articles. L'utilisation d'arguments tels que requête et en-tête indiquera spécifiquement au robot quelles informations sont nécessaires et à partir de quel chemin.

ImportData et ImportRange

La syntaxe ci-dessus, ImportData, est utilisée pour numériser et copier des données à partir de différentes sources et feuilles Google. Alors que ImportRange copie une section de la page Web. Comme son nom l'indique, la plage d'importation est la fonction la plus importante et la plus utile des feuilles Google, car elle peut copier des cellules à partir de feuilles de calcul indépendantes. À l'aide d'une requête, vous pouvez rechercher, filtrer et trier les données comme n'importe quel autre jeu de données. La requête en tant que fonction permet de gagner beaucoup de temps lors du traitement de plusieurs feuilles de calcul et peut être utilisée en tandem pour deux formules. Comme observé, la requête permet de manipuler les données de plusieurs manières et la fonctionnalité d'importation décide de la manière dont les données sont affichées.

Importation de données à partir de sites Web

Nous avons vu comment utiliser les formules de Google Suite pour faciliter l'effort de recherche et apprendre à importer des données à partir de sites Web. Acquérir une expérience pratique dans ces deux domaines vous donnera la confiance nécessaire pour effectuer du grattage Web à l'aide de Google Sheets pour les tâches quotidiennes.

Fiche Google : Tableaux

Gratter les tables du site Web est facile, mais cela doit être fait correctement. Cliquez sur n'importe quelle cellule vide, écrivez la syntaxe d'importation et collez l'URL que vous souhaitez récupérer et ajoutez le numéro de table à l'URL. Exécutez cette fonction et vous verrez la feuille de calcul remplie d'un tableau entier. Utilisez le tableau de valeurs dans la fonction d'index pour filtrer les lignes et les colonnes.

En-têtes et titres

Cette fonctionnalité est meilleure pour parcourir les titres et les titres des articles de presse et les derniers blogs. Une fois que vous avez identifié l'URL spécifique et un identifiant dans le script HTML qui peut diriger le robot vers les en-têtes. Cette méthode est utile lorsque vous avez plus de 50 sites Web à scanner pour vous faire une opinion sur un sujet. Étant donné que chaque site Web est construit différemment, l'identifiant Url ne cesse de changer, et c'est à ce moment qu'un outil de grattage Web comme PromptCloud peut être utile pour répondre aux besoins de votre entreprise.

Flux de contenu

Cette fonctionnalité peut être utilisée pour importer tout le contenu récent des sites Web, des blogs et des articles. Vous pouvez filtrer ces données en envoyant des requêtes sur les meilleurs blogs et les blogs récents. Envoyez également une requête sur Url pour créer votre propre liste de flux. Cette méthode est principalement utilisée par les entreprises pour suivre la façon dont les concurrents publient des mises à jour de contenu sur leurs sites Web et leurs pages de médias sociaux.

Limitations de l'utilisation de feuilles comme grattoir

L'utilisation de base de Google Sheets n'est pas pour gratter des données Web. Nous pouvons donc nous attendre à des limitations lors de l'utilisation de feuilles lorsque la quantité et la vitesse à laquelle les données sont récupérées entrent en compte. Dès que le nombre de scraping dépasse 50 lignes ou 100, Google plante simplement ou revient avec une erreur. Des choses simples comme comprendre le contenu Web et le séparer en conséquence sont triées à l'aide des fonctionnalités de Google.

Conclusion

À l'aide de Google Sheets, vous pouvez récupérer les données H1, les titres, les descriptions et les liens de page. À tel point que vous pouvez extraire du contenu hors page, comme des méta-titres et des descriptions d'une page Web. Vous pouvez également récupérer des pages Web multi-auteurs en combinant les codes d'importation et d'indexation. Dans l'ensemble, la feuille de calcul Google vous offrira une bonne expérience pour le grattage des données Web tant que la quantité peut être quantifiable et prédéfinie. Il est préférable pour les petits projets au niveau d'une équipe ou fonctionne parfaitement bien pour mener un projet de recherche universitaire. Si vous avez des projets à grande échelle, contactez [email protected] pour un grattage Web personnalisé.