Les exemples de données sont excellents ! Mais ce n'est que la moitié de l'histoire

Publié: 2017-05-16

Table des matières afficher

Les exemples de données ne vous montrent pas l'image complète

L'exploration Web ne peut être perfectionnée qu'avec le temps

Évaluation de la valeur délivrée de votre côté

Conclusion

Si vous avez envisagé l'extraction de données Web pour mettre à niveau votre entreprise ou si vous avez bricolé avec un outil de grattage Web bricolage pour vous familiariser avec le grattage, la nature hautement dynamique du Web ne devrait pas être nouvelle pour vous. Les sites Web sont assez dynamiques et ils sont constamment mis à jour. Bien que ces changements soient pour la plupart subtils, ils posent un sérieux défi à quiconque s'aventure dans l'extraction de données Web, car les changements structurels sur les sites Web pourraient rendre les robots inutiles.

Exemple d'extraction de données Web

En tant que solution d'extraction de données Web entièrement gérée, nous nous occupons constamment de la configuration des robots d'exploration, du stockage des données, de la déduplication et de tout ce qui concerne l'exploration Web.

Cependant, nous voyons souvent nos clients dépendre uniquement d'échantillons de données pour évaluer le projet d'extraction de données dans son ensemble. Bien que les exemples de données fournis donnent une idée rapide de l'apparence des données lorsqu'elles sont livrées, cela ne garantit pas une exploration transparente dans la phase initiale, ce qui pourrait vous surprendre. La configuration du robot d'exploration ne peut atteindre un état stable qu'en éliminant les problèmes qui ne manqueront pas d'apparaître au début. Voici pourquoi vous devriez prendre au moins 3 mois pour évaluer un projet de crawling Web afin de lui permettre d'atteindre la stabilité et de maîtriser l'application des données dans votre entreprise.

Les exemples de données ne vous montrent pas l'image complète

Bien que nous disions que les données d'échantillon ne garantissent pas une extraction récurrente transparente, cela ne signifie pas que les données fournies seraient différentes. La chose importante à retenir ici est que l'extraction de données d'une page Web pour créer un exemple de fichier de données est complètement différente de l'exploration de ce site avec une configuration de robot d'exploration Web automatisée. De nombreux éléments du site Web entrent en jeu une fois que nous commençons avec l'exploration automatisée qui sera manquée dans l'exemple d'extraction de données. Ces problèmes peuvent en effet être résolus, mais seulement au fur et à mesure. C'est pourquoi nous insistons sur la période de blocage de 3 mois pour tout projet de web scraping que nous entreprenons.

Voici quelques problèmes liés à l'exploration Web qui ne peuvent être détectés et résolus qu'une fois l'exploration automatisée commencée.

1. Surmonter les problèmes d'interruption de données

Il est difficile de prédire comment un site Web pourrait se comporter lorsque l'exploration est automatisée par opposition à une extraction unique. Il peut y avoir des problèmes pouvant entraîner une perte de données qui peuvent ne pas apparaître dans l'exemple d'extraction de données. Les causes peuvent aller de la configuration du serveur du site cible à l'interférence des popups, de la redirection et des liens rompus. De tels problèmes ne peuvent pas être identifiés en effectuant une analyse unique, à partir de laquelle un échantillon de données est créé. Une fois que les crawls commencent à s'exécuter régulièrement, ces problèmes imprévus qui surgissent sont résolus pour stabiliser le crawler. Par conséquent, des interruptions mineures du flux de données au cours de la phase initiale des analyses automatisées sont normales et ne devraient pas être préoccupantes. Nous corrigeons rapidement ces goulots d'étranglement pour assurer une progression fluide.

2. Optimisation de la vitesse de livraison

La vitesse d'un site Web dépend de nombreux facteurs tels que le fournisseur DNS, la qualité du serveur et le trafic, entre autres facteurs imprévus. Cette vitesse peut aussi beaucoup varier selon les moments de la journée. Étant donné que la vitesse du site a un impact important sur le temps nécessaire pour explorer un site, il faut un certain temps pour optimiser le temps d'exploration de chaque site Web afin que les délais de livraison soient respectés. Étant donné que cet aspect de l'exploration n'est pas non plus prévisible au début, il est normal d'avoir des irrégularités mineures dans le délai de livraison lors de la phase initiale.

L'exploration Web ne peut être perfectionnée qu'avec le temps

Compte tenu de la nature dynamique et imprévisible des sites Web sur Internet, il faut un certain temps pour atteindre un rythme stable avec tout projet d'exploration Web. Les problèmes imprévus qui font partie du commerce ne surviennent généralement qu'après un certain temps et ne peuvent être résolus qu'au fur et à mesure. C'est pourquoi nous exhortons nos clients à rester pendant au moins 3 mois avant d'atteindre un état stable où les problèmes sont résolus et les crawls se déroulent de manière transparente.

Évaluation de la valeur délivrée de votre côté

Comme pour tout, il faut un certain temps pour évaluer les résultats que vous obtiendriez d'un projet d'extraction de données Web. Tirer des conclusions définitives sur la façon dont les données pourraient vous aider en évaluant uniquement les données de l'échantillon n'est pas une bonne idée. Voici certaines choses sur les données que vous ne pouvez comprendre qu'au fil du temps.

1. L'échelle est-elle gérable ?

Si vous débutez avec le Big Data, il peut être intimidant de traiter de grandes quantités de données. Bien que notre solution soit évolutive et puisse répondre à des exigences à grande échelle, vous pourriez avoir besoin d'une mise à niveau de l'infrastructure Big Data lorsque les données commencent à arriver. Déterminer les voies optimales pour utiliser les données est quelque chose que vous ne pouvez maîtriser qu'avec le temps.

2. Le travail manuel est-il nécessaire ?

Nous livrons les données dans plusieurs formats et via différentes méthodes de livraison, y compris une API REST. Cela devrait idéalement vous laisser très peu de travail manuel à effectuer sur les données. Cependant, vous devrez peut-être vous occuper de certains travaux manuels en fonction de vos besoins spécifiques (y compris la consommation de données). Si tel est le cas, vous voudrez peut-être embaucher du personnel technique ou former vos employés existants pour gérer le projet.

3. Affiner l'exigence

Les exigences d'extraction de données Web nécessitent souvent des ajustements au fur et à mesure que vous vous habituez aux ensembles de données et que vous trouvez des possibilités d'utilisation ultérieure. La plupart des gens négligent certains champs, les sites Web sources et la fréquence d'exploration au début du projet. Au fil du temps, certains champs ignorés peuvent s'avérer utiles ou vous pouvez souhaiter que les données soient plus fréquentes. Cela indique à nouveau clairement que vous devez consacrer du temps au projet d'extraction de données avant d'évaluer comment il peut vous aider.

Conclusion

Tous les sites Web ne sont pas créés de la même manière et les problèmes qui pourraient survenir dans les étapes ultérieures des crawls récurrents sont difficiles à prévoir au début. De tous, le défi le plus grand et le plus difficile dans l'extraction de données est la maintenance des robots d'exploration qui nécessite une surveillance constante et des solutions de contournement intelligentes de temps en temps. Lorsque vous commencez votre voyage d'extraction de données Web, il est important d'être conscient de ces défis qui font partie de l'exploration Web et de lui donner suffisamment de temps pour travailler pour vous.