Por que as empresas terceirizam o Web Scraping para o PromptCloud

Publicados: 2017-06-24
Índice mostrar
Aumento da complexidade dos sites
Escalabilidade do processo de extração
Qualidade e manutenção de dados
Extração de dados sem complicações
Ultrapassando a barreira técnica
Conclusão

Como o mundo dos negócios está adotando rapidamente os dados da web para complementar vários casos de uso que continuam crescendo em número a cada dia que passa, houve um aumento na necessidade de um serviço confiável de raspagem da web. Muitos donos de empresas muitas vezes cometem o erro de cair nas ferramentas do-it-yourself que afirmam ser as soluções mágicas para rastrear dados de qualquer site na web. A primeira coisa a saber sobre web scraping é que não existe uma solução pronta para uso que possa extrair dados de qualquer site.

Serviço de raspagem da web de nível empresarial

Isso não quer dizer que as ferramentas de raspagem da web DIY não funcionem – elas funcionam. O problema é que essas ferramentas só podem funcionar sem problemas em um mundo web perfeito, que infelizmente não existe. Cada site é diferente em termos de como eles apresentam os dados – a navegação, práticas de codificação, uso de scripts dinâmicos etc. É por isso que não é viável fazer uma ferramenta de raspagem da web que possa lidar com todos os sites da mesma forma.

Quando se trata de raspagem na web, as ferramentas estão fora da equação. A extração de dados da web deve, idealmente, ser um serviço totalmente gerenciado, que temos aperfeiçoado nos últimos 8 anos. Você não precisa aceitar nossa palavra sobre por que as ferramentas de raspagem da Web não são uma boa combinação para extração de dados da Web em nível empresarial.

Compilamos algumas das respostas de nossos clientes sobre por que eles decidiram mudar para nosso serviço de web scraping gerenciado, deixando para trás as ferramentas 'Magic'.

Aumento da complexidade dos sites

Aqui está um comentário que recebemos recentemente em um de nossos blogs.

“Estou tentando rastrear dados de páginas amarelas. Encontrei uma lista de 64 páginas de lojas. Eu adicionei um seletor para o nome da empresa, endereço e número de telefone. Cliquei com o botão direito em cada campo para inspecionar/copiar/copiar seletor para o nome, endereço e número de telefone. Raspei a URL alterando apenas o final para ler pages/[001-064]. Cliquei em rastrear e, para minha surpresa, os únicos dados coletados foram para a página 001. Cliquei na guia múltipla em cada campo do seletor (para nome, endereço e telefone). Por que só obtive dados para a primeira página? A ferramenta de rastreamento deveria saber que eu queria os mesmos dados para cada empresa (30 por página) para todas as 64 páginas? Desde já, obrigado."

O comentarista aqui estava tentando rastrear dados de um site classificado, mas a ferramenta que ele estava usando não conseguia navegar para as páginas internas da fila e apenas raspou a primeira página. Este é um problema comum associado às ferramentas de raspagem da web, elas tendem a funcionar bem com sites que usam estruturas de navegação simples, mas falham se o site usar uma navegação moderadamente complexa. Com o objetivo de melhorar a experiência do usuário, muitos sites estão adotando a rolagem infinita baseada em AJAX, o que torna isso ainda mais complexo. Essas práticas de codificação dinâmica tornariam a maioria, se não todas as ferramentas de raspagem da web, inúteis.

O que é necessário aqui é uma configuração totalmente personalizável e uma abordagem dedicada onde uma combinação de camadas manuais e automatizadas são usadas para descobrir como o site recebe chamadas AJAX para imitá-las usando o rastreador personalizado. À medida que a complexidade dos sites aumenta com o tempo, a necessidade de uma solução personalizável em vez de uma ferramenta rígida se torna ainda mais óbvia.

Escalabilidade do processo de extração

Aqui está uma nota literal de um de nossos clientes sobre como eles não conseguiram dimensionar o processo depois de tentar criar uma configuração de rastreamento interna.

Nós mesmos construímos todos os rastreadores e não estou feliz com a maneira como fizemos isso e, como você tem uma solução melhor, gostaria de conversar. Também quero uma solução que possa rastrear mais de 5.000 sites de varejo eventualmente.

Muitos empreendedores sentem a necessidade de reinventar a roda. Isso também é mais conhecido como a síndrome do NIH (não inventado aqui) , que é, em termos simples, o desejo de realizar um processo internamente em vez de terceirizar. Claro, existem alguns processos que são melhor executados internamente e um ótimo exemplo é o suporte ao cliente; terceirizar o suporte ao cliente é uma blasfêmia.

No entanto, a raspagem da web não é uma delas. Como as complexidades associadas à extração de dados da Web em grande escala são muito específicas para serem dominadas por uma empresa que não está totalmente envolvida, isso pode de fato se tornar um erro fatal. Percebemos que muitos de nossos clientes existentes tentam construir raspadores internos para só mais tarde recorrer à nossa solução; além de ter perdido algum tempo e esforço valiosos.

É um fato que qualquer pessoa pode rastrear uma única página da web. O verdadeiro desafio está em extrair milhões de páginas da Web simultaneamente e processar tudo isso em dados estruturados e legíveis por máquina. Um dos USPs da nossa solução de web scraping é o aspecto de escalabilidade. Com nossos clusters de servidores de alto desempenho espalhados por várias geografias, construímos uma infraestrutura sólida para extrair dados da Web em escala.

Qualidade e manutenção de dados

Um de nossos clientes estava procurando uma solução que pudesse fornecer dados de alta qualidade, pois a ferramenta que eles estavam usando não forneceu dados estruturados.

Para ser honesto: estamos trabalhando com um serviço gratuito no momento e tudo funciona muito bem. Podemos importar dados de todas as páginas para uma planilha do Excel e depois importá-los para o podio. Mas neste ponto, não podemos filtrar as informações com sucesso. Mas estamos em contato próximo com eles para resolver esse problema. Na verdade, como a solução atual é um pouco inconstante, ela precisa ser pensada repetidamente. Você tem uma solução pronta para usar para nós?

Extrair informações da web em si é um processo complexo. No entanto, transformar as informações não estruturadas na web em dados perfeitamente estruturados, limpos e legíveis por máquina é ainda mais desafiador. A qualidade dos dados é algo de que nos orgulhamos e você pode saber mais sobre como mantemos a qualidade dos dados em nossa postagem anterior no blog.

Para colocar as coisas em perspectiva, dados não estruturados são tão bons quanto nenhum dado. Se sua máquina não puder lê-lo, não há como você entender a enorme quantidade de informações contidas nos dados.

Além disso, você não pode simplesmente criar uma configuração de rastreamento da Web perfeitamente funcional e esquecê-la. A web é altamente dinâmica por natureza. A manutenção da qualidade dos dados requer esforço consistente e monitoramento próximo usando camadas manuais e automatizadas. Isso ocorre porque os sites alteram suas estruturas com bastante frequência, o que pode tornar o rastreador defeituoso ou interrompê-lo, o que afetará os dados de saída. A garantia da qualidade dos dados e a manutenção oportuna são essenciais para executar uma configuração de rastreamento da Web. Na PromptCloud, assumimos a propriedade de ponta a ponta desses aspectos.

Extração de dados sem complicações

Recentemente, coletamos feedback de nossos clientes e aqui está um trecho de uma das respostas.

Tínhamos nossa própria solução e funcionou, mas exigiu ajustes constantes, roubando valiosos recursos de desenvolvimento. Acredito que a aquisição de dados fica cada vez mais complicada, enquanto a necessidade de aquisição de dados por rastreamento está em constante crescimento.

Este cliente, que já completou 5 anos conosco, costumava ter sua própria configuração de rastreamento na web, mas queria acabar com as complicações e aborrecimentos do processo. Esta é uma ótima decisão do ponto de vista comercial. Qualquer empresa precisa ter seu foco exclusivo em sua oferta principal para crescer e ter sucesso, especialmente considerando que a concorrência está no auge em todos os mercados agora. A configuração, a manutenção constante e todas as outras complicações que acompanham a extração de dados da Web podem facilmente sobrecarregar seus recursos internos, afetando seus negócios como um todo.

Ultrapassando a barreira técnica

Essa liderança recente não tinha o conhecimento técnico necessário para configurar e realizar um projeto de rastreamento da Web por conta própria.

Estou pensando que a maneira como usaríamos vocês, potencialmente, seria adicionar sites conforme necessário com base nas solicitações de nossos clientes quando não temos a capacidade e a experiência para adicioná-los nós mesmos. Também não temos os URLs dos quais você precisaria extrair, portanto, precisaríamos que os sites fossem indexados para extrair todas as páginas de produtos.

A raspagem da Web é um processo tecnicamente exigente – o que significa que você precisaria de uma equipe de desenvolvedores talentosos para configurar e implantar os rastreadores em servidores otimizados para realizar a extração de dados.

No entanto, nem todas as empresas devem ser especialistas em raspagem, pois cada uma tem seu próprio foco principal. Se a tecnologia não é o seu forte, é totalmente compreensível que você precise depender de um provedor de serviços para extrair os dados da web para você. Com nossos anos de experiência no espaço de extração de dados da web, agora estamos em condições de assumir projetos de raspagem da web de qualquer complexidade e escala.

Conclusão

Como a demanda por dados da web está aumentando no mundo dos negócios, é inevitável que as empresas comecem a buscar melhores formas de adquirir a mina de ouro dos dados disponíveis na web. Se você observar os vários aspectos da extração de dados da Web, fica claro que deixar isso para especialistas em raspagem é o caminho a seguir.