Réduire les coûts sans rogner sur la collecte de données sur le Web

Publié: 2023-02-13

Table des matières afficher

Reprise > Redémarrage

Serveur vs sans serveur

Détecteur de changement de site Web

Automatisation des tâches humaines

Choisissez un cloud public plutôt que des serveurs dédiés

Outil Open Source

Externaliser les problèmes de conformité

Rendre la validation des données moins chère en utilisant des machines

Laissez l'échelle dicter les termes

Actualiser uniquement ce qui a changé

Utiliser un fournisseur DaaS comme PromptCloud

Récupérer des données sur le Web sans avoir de plan en main comporte de nombreux risques. Au fur et à mesure que vous vous perdez dans des sites Web complexes et la propreté des données, votre budget sera rapidement dépassé. Les chances sont encore plus élevées si vous utilisez des ressources cloud et que vous ne suivez pas les coûts encourus quotidiennement. En termes d'optimisation des coûts, vous devrez examiner l'ensemble de votre flux de travail, y compris généralement–

Extraction de données sur le Web.
Nettoyage et normalisation des données.
Stocker les données sur un support tel qu'une base de données ou un compartiment S3.
Accéder aux données via des appels API ou un accès direct à l'emplacement de stockage.
Chiffrement et déchiffrement possibles des données (dans le cas où les données sont sensibles et qu'une haute sécurité est primordiale).
Traitement des données scrapées pour les rendre utilisables pour les workflows en aval.

Reprise > Redémarrage

Dans de nombreux cas, lorsque vous récupérez des dizaines de points de données sur des millions de pages Web, votre code peut se casser à un moment donné. Dans la plupart des scénarios, les gens continuent de redémarrer toute la tâche - oui, c'est en effet beaucoup plus facile à mettre en œuvre et à utiliser. Cependant, avec un peu de merveille d'ingénierie, éventuellement en utilisant un mécanisme de mise en cache, vous pouvez vous assurer que vous enregistrez le point de contrôle chaque fois qu'un travail de raclage s'interrompt. Une fois que vous avez résolu le problème derrière votre rupture, vous pouvez continuer à gratter les données en reprenant à partir du point de contrôle enregistré.

Serveur vs sans serveur

Ce point est important pour ceux qui ne récupèrent pas les données en temps réel, mais plutôt par lots. Par exemple, supposons que vous extrayiez les données d'un million de pages Web deux fois par jour. À chaque fois, le travail de grattage prend 2 heures. Ainsi, le temps total nécessaire à l'exécution quotidienne de la tâche est de 2 + 2 = 4 heures. Maintenant, si vous avez une configuration basée sur un serveur utilisant quelque chose comme une instance AWS EC-2, vous serez facturé pour 24 heures à moins que vous alliez manuellement activer et désactiver l'instance à chaque fois - une tâche ardue et facile à gâcher - processus de mise en place. La meilleure voie à suivre ici consistera à utiliser une configuration sans serveur dans laquelle vous disposez de ressources cloud exécutées à la demande, telles qu'AWS Lambda ou Fargate. De cette façon, vous n'êtes facturé que pour les 4 heures que vous consommez et vous économiserez des tonnes d'argent à long terme. Si vous récupérez des données sur le Web à l'aide d'araignées automatisées qui fonctionnent 24 × 7, vous pouvez choisir la configuration basée sur le serveur.

Détecteur de changement de site Web

Vous pouvez gratter un million de pages Web à partir de 5 sites Web, soit 5 millions de pages Web au total. Supposons maintenant que 2 de ces sites Web effectuent des modifications basées sur l'interface utilisateur et que lorsque vous exécutez votre robot d'exploration, vous obtenez les mauvaises données dans votre flux de travail. Maintenant, vous devrez consacrer à la fois des heures de travail et des ressources informatiques supplémentaires pour trouver quelle partie des données est inutilisable, mettre à jour le robot d'exploration, puis l'exécuter à nouveau pour 2 millions de pages Web. Une telle situation aurait pu être facilement évitée si vous aviez exécuté un script de détection de changement qui vous aurait indiqué que l'apparence de 2 des sites Web avait changé. Cela vous ferait économiser du temps, de l'argent et même une perte de données probable.

Automatisation des tâches humaines

Lors de la création d'un flux de travail de grattage Web, de nombreuses tâches seront initialement effectuées manuellement. Celles-ci peuvent inclure des étapes telles que la vérification et la validation des données, le nettoyage des données, le formatage, etc. Les analystes de données passent souvent des heures et des jours à exécuter des scripts sur leurs machines locales. Compte tenu de la grande quantité de données qu'ils peuvent traiter, les scripts peuvent également prendre un certain temps à s'exécuter. La meilleure option ici consiste à automatiser certaines des étapes après avoir pris le pouls des données. Avec le temps, vous devriez viser à automatiser davantage de tâches pour augmenter l'efficacité.

Choisissez un cloud public plutôt que des serveurs dédiés

À moins que vous ne preniez des décisions en utilisant un flux de données où chaque milliseconde compte, vous pouvez vous permettre d'utiliser un cloud public au lieu de serveurs dédiés. Il peut y avoir une légère dégradation des performances, mais l'utilisation de serveurs dédiés à long terme peut faire grimper vos coûts de grattage Web sans aucune limite.

Outil Open Source

La plupart des logiciels sous licence coûtent une bombe via des abonnements mensuels ou annuels. Si vous avez besoin de fonctionnalités supplémentaires telles que la rotation IP ou le nettoyage des données, des frais supplémentaires peuvent vous être facturés. De plus, la plupart de ces outils payants seront accompagnés de certaines limitations et tout ajout ou modification de nouvelles fonctionnalités peut prendre des mois, s'il est approuvé.

Externaliser les problèmes de conformité

Lors de la récupération de données sur tout le Web, vous devez examiner plusieurs aspects juridiques tels que

Que vous capturiez des informations personnelles.
Le fichier robot.txt de ce site Web.
Les règles entourant les données se trouvant derrière une page de connexion.
Gestion du contenu protégé par le droit d'auteur.
S'assurer que la réutilisation du contenu n'enfreint pas les lois.
Être conscient des lois de l'emplacement géographique à partir duquel vous extrayez votre contenu et de l'endroit où résident vos utilisateurs finaux.

Et plus…

En raison de la complexité des lois numériques mondiales, il est facile de se retrouver du mauvais côté d'un procès en raison d'un faux pas. D'un autre côté, toutes les entreprises n'auraient pas une équipe juridique pour s'occuper de ces problèmes - cela coûtera cher.

Vous pouvez plutôt externaliser vos exigences légales afin de pouvoir bénéficier de leur aide chaque fois que vous configurez un nouveau flux de grattage Web ou que vous décidez de créer un produit à l'aide de données grattées. Des services juridiques à la demande pour le grattage Web auraient plus de sens pour les petites ou moyennes entreprises, tandis que les services juridiques du Fortune 500 peuvent gérer ces problèmes en interne.

Rendre la validation des données moins chère en utilisant des machines

Un changement que les entreprises peuvent faire est d'utiliser des bibliothèques tierces pour valider les données au lieu de faire appel à des spécialistes des données. Souvent, des dizaines d'analystes analysent les données brutes manuellement, apportent certaines modifications, génèrent de nouvelles colonnes et normalisent les données. La plupart de ces activités peuvent être automatisées en créant des workflows à l'aide d'outils comme AWS Step Functions. Ces flux de travail peuvent être configurés en fonction de :

Que vos données se présentent sous la forme d'un flux en direct ou de lots.
La quantité de données qui est traitée périodiquement.
Le type de traitement que vous souhaitez effectuer sur les données.
Le temps acceptable qu'un point de données peut prendre pour parcourir le workflow.
Le besoin de mécanismes de nouvelle tentative, de restauration et de réexécution.

Le plus grand avantage de ces flux de travail est que si vous avez effectivement besoin d'un certain nombre de vérifications manuelles, vous pouvez avoir une étape manuelle dans le flux de travail où une personne peut consulter les données, apporter des modifications si nécessaire et appuyer sur un bouton pour déplacer le flux de travail. à l'étape suivante.

Laissez l'échelle dicter les termes

La meilleure solution de scraping pour une entreprise comptant des milliers d'employés dans plusieurs pays peut ne pas être rentable pour une startup de 10 employés desservant une seule ville. Par conséquent, prendre des idées d'autres entreprises peut ne pas être utile. En outre, le plan de grattage de votre entreprise peut également devoir être mis à jour à mesure que vous évoluez.

Actualiser uniquement ce qui a changé

Supposons que vous extrayiez des données d'un site Web de commerce électronique. Vous disposez de plusieurs points de données importants tels que la description, les propriétés, la politique de retour, le prix, le nombre d'avis, les notes, etc. Désormais, si vous actualisez régulièrement ces données, vous préférerez peut-être actualiser différents points de données à différents intervalles. Par exemple, vous pouvez actualiser le prix toutes les heures, les avis et les évaluations quotidiennement et le reste des points de données tous les mois. Bien qu'un tel changement semble minime, lorsque vous multipliez le coût et l'effort par quelques millions, vous réalisez à quel point seul ce dont vous avez besoin peut vous faire économiser.

Utiliser un fournisseur DaaS comme PromptCloud

Il n'y a pas de solution unique en matière de scraping Web, c'est pourquoi notre équipe de PromptCloud fournit des solutions personnalisées à chaque entreprise en fonction de ses besoins en matière de scraping. Notre solution entièrement personnalisable vous permet de mettre à jour–

Sites Web à partir desquels vous devez récupérer des données.
Fréquence de récupération des données.
Points de données à extraire.
Le mécanisme par lequel vous souhaitez consommer les données extraites.

Peu importe le nombre de sources que vous branchez, notre fonctionnalité d'agrégation peut vous aider à obtenir les données en un seul flux.

Les entreprises ont des calendriers serrés où elles ont besoin de flux de travail opérationnels rapidement. Notre expérience nous aide à mettre en place des pipelines de scraping en peu de temps, une fois que nous avons les besoins. Nous aidons également nos clients à comprendre le chaos des données en fournissant des solutions de bout en bout. D'autres fonctionnalités utiles sont

Entièrement géré sans service de maintenance déployé sur le cloud.
Assistance rapide appuyée par de solides SLA.
Faible latence pour que les données vous parviennent à temps.
Évolutivité illimitée en fonction de vos besoins.
Surveillance et maintenance de l'ensemble du flux de travail de grattage.

Étant donné que nous facturons en fonction de la quantité de données que vous consommez, vous n'avez pas à vous soucier des frais fixes. Comme une véritable solution DaaS, votre facture mensuelle est basée uniquement sur votre consommation de données. Alors abonnez-vous maintenant et obtenez des données à un prix raisonnable sans rogner en seulement 4 étapes :

Vous nous donnez les exigences.
Nous vous donnons des exemples de données.
Nous finaliserons la configuration du crawler si vous êtes satisfait.
Les données arrivent entre vos mains, dans le format de votre choix et via le support préféré.

Le choix vous appartient donc, et il est temps de prendre les rênes du web scraping entre vos mains avant que vos coûts ne culminent.