Por qué las empresas subcontratan Web Scraping a PromptCloud

Publicado: 2017-06-24
Mostrar tabla de contenido
El aumento de la complejidad de los sitios web
Escalabilidad del proceso de extracción
Calidad y mantenimiento de datos
Extracción de datos sin problemas
Cruzando la barrera técnica
Conclusión

A medida que el mundo de los negocios está adoptando rápidamente los datos web para complementar varios casos de uso que siguen creciendo en número cada día que pasa, ha habido un aumento en la necesidad de un servicio de web scraping confiable. Muchos dueños de negocios a menudo cometen el error de caer en las herramientas de bricolaje que afirman ser las soluciones mágicas para rastrear datos de cualquier sitio web en la web. Lo primero que debe saber sobre el web scraping es que no existe una solución lista para usar que pueda extraer datos de cualquier sitio web.

Servicio de raspado web de nivel empresarial

Esto no quiere decir que las herramientas de raspado web de bricolaje no funcionen, lo hacen. El problema es que estas herramientas solo pueden funcionar sin problemas en un mundo web perfecto, que lamentablemente no existe. Cada sitio web es diferente en términos de cómo presentan los datos: la navegación, las prácticas de codificación, el uso de scripts dinámicos, etc. crean una gran diversidad en la forma en que se construyen los sitios web. Esta es la razón por la que no es factible crear una herramienta de web scraping que pueda manejar todos los sitios web por igual.

Cuando se trata de web scraping, las herramientas están fuera de la ecuación. Idealmente, la extracción de datos de la web debería ser un servicio totalmente administrado, que hemos estado perfeccionando durante los últimos 8 años. No tiene que confiar en nuestra palabra sobre por qué las herramientas de web scraping no son una buena combinación para la extracción de datos web de nivel empresarial.

Recopilamos algunas de las respuestas de nuestros clientes sobre por qué decidieron cambiar a nuestro servicio de web scraping administrado, dejando atrás las herramientas 'Magic'.

El aumento de la complejidad de los sitios web

Aquí hay un comentario que recibimos recientemente en uno de nuestros blogs.

“Estoy tratando de rastrear los datos de las páginas amarillas. Encontré una lista de 64 páginas de tiendas. Agregué un selector para el nombre comercial, la dirección y el número de teléfono. Hice clic derecho en cada campo para inspeccionar/copiar/copiar selector para el nombre, la dirección y el número de teléfono. Extraje la URL cambiando solo el final para leer páginas/[001-064]. Hice clic en rastrear y, para mi sorpresa, los únicos datos extraídos fueron para la página 001. Hice clic en la pestaña múltiple en cada campo de selección (para nombre, dirección y teléfono). ¿Por qué solo obtuve datos de la primera página? ¿Debería saber la herramienta de rastreo que quería los mismos datos para cada empresa (30 por página) para las 64 páginas? Gracias por adelantado."

El comentarista aquí estaba tratando de rastrear datos de un sitio web clasificado, pero la herramienta que estaba usando no podía navegar a las páginas internas en la cola y solo extrajo la primera página. Este es un problema común asociado con las herramientas de web scraping, tienden a funcionar bien con sitios que usan estructuras de navegación simples, pero fallan si el sitio usa incluso una navegación moderadamente compleja. Con el objetivo de mejorar la experiencia del usuario, muchos sitios ahora están adoptando el desplazamiento infinito basado en AJAX, lo que hace que esto sea aún más complejo. Tales prácticas de codificación dinámica harían que la mayoría, si no todas, las herramientas de web scraper fueran inútiles.

Lo que se necesita aquí es una configuración totalmente personalizable y un enfoque dedicado en el que se use una combinación de capas manuales y automatizadas para descubrir cómo el sitio web recibe llamadas AJAX para imitarlas usando el rastreador personalizado. A medida que la complejidad de los sitios web sigue aumentando con el tiempo, la necesidad de una solución personalizable en lugar de una herramienta rígida se vuelve cada vez más obvia.

Escalabilidad del proceso de extracción

Aquí hay una nota textual de uno de nuestros clientes sobre cómo no pudieron escalar el proceso después de intentar crear una configuración de rastreo interna.

Hemos construido todos los rastreadores nosotros mismos y no estoy contento con la forma en que lo hemos hecho y dado que tiene una solución mejor, me interesaría hablar. También quiero una solución que pueda rastrear más de 5000 sitios minoristas eventualmente.

Muchos emprendedores sienten la necesidad de reinventar la rueda. Esto también se conoce mejor como el síndrome NIH (No inventado aquí) , que es, en términos simples, la necesidad de llevar a cabo un proceso internamente en lugar de subcontratarlo. Por supuesto, hay algunos procesos que se realizan mejor internamente y un gran ejemplo es la atención al cliente; externalizar la atención al cliente es una blasfemia.

Sin embargo, el web scraping no es uno de esos. Dado que las complejidades asociadas con la extracción de datos web a gran escala son demasiado específicas para ser dominadas por una empresa que no está completamente involucrada, esto puede convertirse en un error fatal. Hemos notado que muchos de nuestros clientes existentes intentan construir raspadores internos para luego recurrir a nuestra solución; además de haber perdido un tiempo y esfuerzo valiosos.

Es un hecho que cualquiera puede rastrear una sola página web. El verdadero desafío radica en extraer millones de páginas web simultáneamente y procesarlas todas en datos estructurados y legibles por máquina. Uno de los USP de nuestra solución de web scraping es el aspecto de escalabilidad de la misma. Con nuestros clústeres de servidores de alto rendimiento que se encuentran dispersos en distintas geografías, hemos creado una infraestructura sólida para extraer datos web a escala.

Calidad y mantenimiento de datos

Uno de nuestros clientes estaba buscando una solución que pudiera proporcionarles datos de alta calidad ya que la herramienta que estaban utilizando no proporcionaba datos estructurados.

Para ser completamente honesto: estamos trabajando con un servicio gratuito en este momento y todo funciona bastante bien. Podemos importar datos de todas las páginas a una hoja de Excel y luego importarlos a podio. Pero en este punto, no podemos filtrar la información con éxito. Pero estamos en estrecho contacto con ellos para resolver este problema. En realidad, dado que la solución actual es un poco inconstante, debe pensarse una y otra vez. ¿Tiene una solución lista para usar para nosotros?

Extraer información de la web en sí es un proceso complejo. Sin embargo, convertir la información no estructurada que hay en la web en datos perfectamente estructurados, limpios y legibles por máquina es aún más desafiante. La calidad de los datos es algo de lo que nos enorgullecemos y puede obtener más información sobre cómo mantenemos la calidad de los datos en nuestra publicación de blog anterior.

Para poner las cosas en perspectiva, los datos no estructurados son tan buenos como no tener datos. Si su máquina no puede leerlo, no hay forma de que pueda dar sentido a la enorme cantidad de información dentro de los datos.

Además, no puede simplemente crear una configuración de rastreo web perfectamente funcional y olvidarse de ella. La web es de naturaleza muy dinámica. El mantenimiento de la calidad de los datos requiere un esfuerzo constante y una estrecha supervisión mediante el uso de capas tanto manuales como automatizadas. Esto se debe a que los sitios web cambian sus estructuras con bastante frecuencia, lo que podría hacer que el rastreador falle o se detenga, lo que afectará los datos de salida. La garantía de la calidad de los datos y el mantenimiento oportuno son parte integral de la ejecución de una configuración de rastreo web. En PromptCloud, nos hacemos cargo de estos aspectos de principio a fin.

Extracción de datos sin problemas

Recientemente recopilamos comentarios de nuestros clientes y aquí hay un extracto de una de las respuestas.

Teníamos nuestra propia solución y funcionó, pero requería ajustes constantes, robando valiosos recursos de desarrollo. Creo que la adquisición de datos se vuelve cada vez más complicada, mientras que la necesidad de adquisición de datos a través del rastreo crece constantemente.

Este cliente, que ahora ha completado 5 años con nosotros, solía tener su propia configuración de rastreo web pero quería acabar con las complicaciones y molestias del proceso. Esta es una gran decisión desde el punto de vista comercial. Cualquier empresa debe centrarse únicamente en su oferta principal para crecer y tener éxito, especialmente teniendo en cuenta que la competencia está en su apogeo en todos los mercados ahora. La configuración, el mantenimiento constante y todas las demás complicaciones que vienen con la extracción de datos web pueden acaparar fácilmente sus recursos internos, afectando su negocio en general.

Cruzando la barrera técnica

Este líder reciente carecía de la experiencia técnica necesaria para configurar y llevar a cabo un proyecto de rastreo web por su cuenta.

Estoy pensando que la forma en que los usaríamos, potencialmente, es agregar sitios según sea necesario en función de las solicitudes de nuestros clientes cuando no tenemos la capacidad y la experiencia para agregarlos nosotros mismos. Tampoco tenemos las URL de las que necesitaría extraer, por lo que necesitaríamos rastrear los sitios para extraer todas las páginas de productos.

El web scraping es un proceso técnicamente exigente, lo que significa que necesitaría un equipo de desarrolladores talentosos para configurar e implementar los rastreadores en servidores optimizados para realizar la extracción de datos.

Sin embargo, no todas las empresas están destinadas a ser expertas en scraping, ya que cada una tiene su propio enfoque central. Si la tecnología no es su fuerte, es totalmente comprensible que necesite depender de un proveedor de servicios para extraer datos web por usted. Con nuestros años de experiencia en el espacio de extracción de datos web, ahora estamos en condiciones de asumir proyectos de web scraping de cualquier complejidad y escala.

Conclusión

A medida que aumenta la demanda de datos web en el mundo de los negocios, es inevitable que las empresas comiencen a buscar mejores formas de adquirir la mina de oro de datos disponibles en la web. Si observa los diversos aspectos de la extracción de datos web, está claro que dejarlo en manos de especialistas en raspado es el camino a seguir.