Pourquoi les entreprises sous-traitent le scraping Web à PromptCloud

Publié: 2017-06-24

Table des matières afficher

Complexité croissante des sites Web

Évolutivité du processus d'extraction

Qualité et maintenance des données

Extraction de données sans tracas

Franchir la barrière technique

Conclusion

Alors que le monde des affaires adopte rapidement les données Web pour compléter divers cas d'utilisation qui ne cessent de croître chaque jour, le besoin d'un service de grattage Web fiable a augmenté. De nombreux propriétaires d'entreprise commettent souvent l'erreur de tomber amoureux des outils de bricolage qui prétendent être les solutions magiques pour explorer les données de n'importe quel site Web sur le Web. La première chose à savoir sur le web scraping est qu'il n'existe pas de solution prête à l'emploi capable d'extraire des données de n'importe quel site Web.

Service de grattage Web de niveau entreprise

Cela ne veut pas dire que les outils de grattage Web de bricolage ne fonctionnent pas - ils le font. Le problème est que ces outils ne peuvent fonctionner correctement que dans un monde Web parfait, qui n'existe malheureusement pas. Chaque site Web est différent en termes de présentation des données - la navigation, les pratiques de codage, l'utilisation de scripts dynamiques, etc. permettent une grande diversité dans la manière dont les sites Web sont construits. C'est pourquoi il n'est pas possible de créer un outil de grattage Web capable de gérer tous les sites Web de la même manière.

En matière de scraping Web, les outils sont hors de l'équation. L'extraction de données du Web devrait idéalement être un service entièrement géré, que nous perfectionnons depuis 8 ans. Vous n'avez pas à nous croire sur parole pour savoir pourquoi les outils de grattage Web ne conviennent pas à l'extraction de données Web au niveau de l'entreprise.

Nous avons compilé certaines des réponses de nos clients sur les raisons pour lesquelles ils ont décidé de passer à notre service de grattage Web géré, laissant les outils « magiques » derrière eux.

Complexité croissante des sites Web

Voici un commentaire que nous avons récemment reçu sur l'un de nos blogs.

« J'essaie d'explorer les données des pages jaunes. J'ai trouvé une liste de 64 pages de magasins. J'ai ajouté un sélecteur pour le nom, l'adresse et le numéro de téléphone de l'entreprise. J'ai fait un clic droit sur chaque champ pour inspecter/copier/copier le sélecteur pour le nom, l'adresse et le numéro de téléphone. J'ai gratté l'URL en ne changeant que la fin pour lire les pages/[001-064]. J'ai cliqué sur crawl et à ma grande surprise, les seules données récupérées concernaient la page 001. J'ai cliqué sur l'onglet multiple dans chaque champ de sélection (pour le nom, l'adresse et le téléphone). Pourquoi n'ai-je obtenu des données que pour la première page ? L'outil de crawl doit-il savoir que je voulais les mêmes données pour chaque entreprise (30 par page) pour les 64 pages ? Merci d'avance."

Le commentateur ici essayait d'explorer les données d'un site Web classifié, mais l'outil qu'il utilisait ne pouvait pas accéder aux pages intérieures en file d'attente et n'a gratté que la première page. Il s'agit d'un problème courant associé aux outils de grattage Web, ils ont tendance à bien fonctionner avec les sites qui utilisent des structures de navigation simples, mais échouent si le site utilise même une navigation modérément complexe. Dans le but d'améliorer l'expérience utilisateur, de nombreux sites adoptent désormais le défilement infini basé sur AJAX, ce qui rend cela encore plus complexe. De telles pratiques de codage dynamique rendraient la plupart, sinon tous les outils de grattage Web inutiles.

Ce qu'il faut ici, c'est une configuration entièrement personnalisable et une approche dédiée où une combinaison de couches manuelles et automatisées est utilisée pour déterminer comment le site Web reçoit les appels AJAX afin de les imiter à l'aide du robot d'exploration personnalisé. Alors que la complexité des sites Web ne cesse d'augmenter au fil du temps, la nécessité d'une solution personnalisable plutôt qu'un outil rigide devient d'autant plus évidente.

Évolutivité du processus d'extraction

Voici une note textuelle de l'un de nos clients sur la façon dont il n'a pas pu faire évoluer le processus après avoir essayé de créer une configuration d'exploration interne.

Nous avons construit tous les robots d'exploration nous-mêmes et je ne suis tout simplement pas satisfait de la façon dont nous l'avons fait et puisque vous avez une meilleure solution, je serais intéressé à en parler. Je souhaite également une solution capable d'explorer plus de 5000 sites de vente au détail.

De nombreux entrepreneurs ressentent le besoin de réinventer la roue. Ceci est également mieux connu sous le nom de syndrome NIH (Not inventé here) qui est en termes simples, l'envie de réaliser un processus en interne plutôt que de l'externaliser. Bien sûr, certains processus sont mieux réalisés en interne et un bon exemple est le support client ; l'externalisation du support client est un blasphème.

Cependant, le web scraping n'en fait pas partie. Étant donné que les complexités associées à l'extraction de données Web à grande échelle sont trop spécialisées pour être maîtrisées par une entreprise qui ne s'y intéresse pas entièrement, cela peut en fait s'avérer être une erreur fatale. Nous avons remarqué que bon nombre de nos clients existants tentent de construire des grattoirs en interne pour n'avoir recours à notre solution que plus tard ; en plus d'avoir perdu un temps et des efforts précieux.

C'est un fait que n'importe qui peut explorer une seule page Web. Le véritable défi consiste à extraire simultanément des millions de pages Web et à les transformer toutes en données structurées et lisibles par machine. L'un des USP de notre solution de grattage Web est son aspect évolutif. Avec nos clusters de serveurs hautes performances dispersés sur plusieurs zones géographiques, nous avons mis en place une infrastructure solide comme le roc pour extraire des données Web à grande échelle.

Qualité et maintenance des données

Un de nos clients recherchait une solution qui pourrait lui fournir des données de haute qualité car l'outil qu'il utilisait ne fournissait pas de données structurées.

Pour être tout à fait honnête : nous travaillons actuellement avec un service gratuit et tout fonctionne plutôt bien. Nous pouvons importer les données de toutes les pages dans une feuille Excel, puis les importer dans podio. Mais à ce stade, nous ne pouvons pas filtrer les informations avec succès. Mais nous sommes en contact étroit avec eux pour résoudre ce problème. En fait, puisque la solution actuelle est un peu inconstante, elle doit être repensée encore et encore. Avez-vous une solution prête à l'emploi pour nous?

Extraire des informations du Web est en soi un processus complexe. Cependant, transformer les informations non structurées disponibles sur le Web en données parfaitement structurées, propres et lisibles par machine est encore plus difficile. La qualité des données est quelque chose dont nous sommes fiers et vous pouvez en savoir plus sur la façon dont nous maintenons la qualité des données dans notre précédent article de blog.

Pour mettre les choses en perspective, les données non structurées sont aussi bonnes que l'absence de données. Si votre machine ne peut pas le lire, vous ne pourrez en aucun cas donner un sens à la quantité massive d'informations contenues dans les données.

De plus, vous ne pouvez pas simplement créer une configuration d'exploration Web parfaitement fonctionnelle et l'oublier. Le Web est de nature très dynamique. Le maintien de la qualité des données nécessite des efforts constants et une surveillance étroite à l'aide de couches manuelles et automatisées. En effet, les sites Web modifient assez fréquemment leur structure, ce qui peut rendre le robot d'exploration défectueux ou l'arrêter, ce qui affectera les données de sortie. L'assurance de la qualité des données et la maintenance en temps opportun font partie intégrante de l'exécution d'une configuration d'exploration Web. Chez PromptCloud, nous assumons la propriété de bout en bout de ces aspects.

Extraction de données sans tracas

Nous avons récemment recueilli les commentaires de nos clients et voici un extrait de l'une des réponses.

Nous avions notre propre solution, et cela fonctionnait, mais cela nécessitait des ajustements constants, en volant de précieuses ressources de développement. Je crois que l'acquisition de données devient de plus en plus compliquée, alors que le besoin d'acquisition de données par crawl ne cesse de croître.

Ce client, qui a maintenant passé 5 ans avec nous, avait sa propre configuration d'exploration Web, mais voulait éliminer les complications et les tracas du processus. C'est une excellente décision d'un point de vue commercial. Toute entreprise doit se concentrer uniquement sur son offre de base pour se développer et réussir, d'autant plus que la concurrence est actuellement à son apogée sur tous les marchés. La configuration, la maintenance constante et toutes les autres complications liées à l'extraction de données Web peuvent facilement monopoliser vos ressources internes, ce qui nuit à l'ensemble de votre entreprise.

Franchir la barrière technique

Ce prospect récent ne disposait pas de l'expertise technique nécessaire pour mettre en place et mener à bien un projet d'exploration Web par lui-même.

Je pense que la façon dont nous vous utiliserions, potentiellement, serait d'ajouter des sites selon les besoins en fonction des demandes de nos clients lorsque nous n'avons pas la capacité et l'expertise pour les ajouter nous-mêmes. Nous n'avons pas non plus les URL dont vous auriez besoin pour extraire, nous aurions donc besoin des sites spidered pour extraire toutes les pages de produits.

Le scraping Web est un processus techniquement exigeant - ce qui signifie que vous auriez besoin d'une équipe de développeurs talentueux pour configurer et déployer les robots d'exploration sur des serveurs optimisés pour procéder à l'extraction des données.

Cependant, toutes les entreprises ne sont pas censées être des experts en matière de grattage, car chacune a son propre objectif principal. Si la technologie n'est pas votre fort, il est tout à fait compréhensible que vous deviez dépendre d'un fournisseur de services pour extraire les données Web à votre place. Grâce à nos années d'expertise dans le domaine de l'extraction de données Web, nous sommes désormais en mesure de prendre en charge des projets de grattage Web de toute complexité et de toute envergure.

Conclusion

Alors que la demande de données Web est en augmentation dans le monde des affaires, il est inévitable que les entreprises commencent à chercher de meilleurs moyens d'acquérir la mine d'or des données disponibles sur le Web. Si vous examinez les différents aspects de l'extraction de données Web, il est clair que s'en remettre à des spécialistes du scraping est la voie à suivre.