Legalidade da extração de conteúdo gerado pelo usuário disponível publicamente – PromptCloud

Publicados: 2017-08-22

Como uma empresa de soluções de dados da Web, muitas vezes nos deparamos com dúvidas sobre a legalidade do web scraping. Antes de respondermos a essa pergunta, vamos primeiro entender o termo “web scraping”. Simplificando, é uma parte do rastreamento da Web (encontrar as páginas da Web e baixá-las) que envolve a extração de dados das páginas da Web para coletar informações relevantes. O fator chave aqui é que um bot (semelhante ao bot do Google) realiza essa atividade de forma automatizada e, assim, elimina as atividades manuais de uma pessoa. Quando os bots acessam páginas da Web para capturar conteúdo, eles agem de maneira bastante semelhante à maneira como o agente do navegador faz chamadas para as páginas. Então, por que temos tanto alvoroço em torno de “raspagem”? A razão por trás disso pode ser atribuída principalmente ao desrespeito aos protocolos estabelecidos.

Conteúdo gerado pelo usuário disponível publicamente

Aqui estão algumas das regras básicas que devem ser seguidas por qualquer pessoa que queira rastrear dados da web:

  • arquivo robots.txt

Este arquivo especifica como um site gostaria de ser rastreado. Inclui a lista de páginas acessíveis, páginas restritas, limite de solicitações, além de bots explicitamente mencionados que são permitidos ou bloqueados para rastreamento. Confira este post para saber mais sobre como ler e respeitar o arquivo robots.txt.

  • Termos de uso

Mais um ponto de verificação importante é a página de termos e condições que fala sobre as especificidades de como esses dados devem ser coletados e usados ​​juntamente com outras diretrizes. Certifique-se de que você não está violando nada mencionado nesta página.

  • Conteúdo público

A menos que você tenha permissão do site, mantenha os dados disponíveis ao público. Isso significa que, se os dados puderem ser acessados ​​apenas fazendo login, eles são destinados aos usuários do site, não aos bots.

  • Frequência de rastreamento

O arquivo robots.txt menciona a frequência de rastreamento e a taxa na qual os bots podem acessar o site. Portanto, você deve se ater a isso e, caso isso não tenha sido mencionado, o ônus é seu para garantir que o servidor do site não seja sobrecarregado por hits. Isso é necessário para garantir que o raspador seja educado; o servidor não esgota seus recursos e não atende aos usuários reais.

Além dessas regras obrigatórias, existem outras práticas recomendadas para web scraping que foram abordadas neste post. Voltando à nossa primeira pergunta, ou seja, se web scraping é legal ou não?—podemos dizer com segurança que se você está aderindo às regras acima mencionadas, você está no perímetro legal. Mas, você deve obter isso verificado por um advogado para estar completamente do lado seguro. Houve vários casos de ações judiciais, como Facebook versus Pete Warden, Associated Press versus Meltwater holdings, Inc., Southwest Airlines Co. versus BoardFirst, LLC e muito mais.

Dito isso, há uma questão maior em torno de nós – as empresas poderosas que hospedam petabytes de dados disponíveis publicamente (especialmente dados gerados pelo usuário) devem ser seletivas ao fornecer acesso aos mesmos? Essa pergunta gira basicamente em torno dos recentes eventos relacionados aos processos judiciais envolvendo o LinkedIn (de propriedade da Microsoft) e o hiQ Labs. Para os não iniciados, o hiQ Labs é uma startup que estava coletando dados dos perfis públicos no LinkedIn para treinar seus algoritmos de aprendizado de máquina. Em maio, o LinkedIn enviou uma carta de cessação (C&D) ao hiQ instruindo-os a parar de extrair dados de sua rede social. A carta mencionou vários casos, incluindo Craigslist Inc. v. 3Taps Inc., em que o veredicto foi contra a 3Taps e eles foram encontrados em violação do Computer Fraud and Abuse Act por contornar técnicas de bloqueio de IP implantadas pelo Craigslist. Devemos também observar que o LinkedIn implementou medidas técnicas para o hiQ acessar os dados públicos. No entanto, a HiQ Labs respondeu entrando com uma ação contra o LinkedIn em junho, alegando que o LinkedIn violou as leis antitruste.

Uma das principais questões levantadas pelo hiQ é sobre as práticas anticompetitivas do LinkedIn, afirmando que o LinkedIn queria lançar suas próprias soluções de análise e ciência de dados que poderiam ser dissuadidas pelas ofertas do primeiro. Eles também afirmam que o LinkedIn já sabia sobre ele há anos e até mesmo aceitaram um prêmio da hiQ em uma determinada conferência de análise de dados.

Chegando ao cerne das questões, podemos ver que não é necessária “autorização” para acessar as páginas de perfil público no LinkedIn. Portanto, a alegação do LinkedIn de que a extração desses dados pode violar o Computer Fraud and Abuse Act, ignorando um requisito de autenticação, não tem uma base sólida. O que torna este caso especial é que o hiQ está apenas raspando os dados que estão disponíveis publicamente, enquanto em outros casos os raspadores violaram a privacidade dos usuários ou o uso de dados sem aviso prévio. Se considerarmos apenas a atividade manual, qualquer pessoa pode clicar em cada perfil e ver os dados para copiar todas as informações e, em seguida, alimentar os dados no sistema de computação. Embora teoricamente viável, esta é uma forma ineficiente e propensa a erros de coleta de dados, pois isso exigiria muito tempo e mão de obra. Essa é a principal razão pela qual temos bots programáveis ​​para fazer essa tarefa de forma automatizada e repetitiva.

O LinkedIn permite que os mecanismos de pesquisa rastreiem e indexem suas páginas públicas para promover sua rede. Então, por que o resto dos aplicativos e sites não deveriam ter condições de igualdade ao se beneficiarem dos mesmos dados também? Assim, o ponto a ser ponderado é – as empresas de energia têm o direito de impedir que os robôs raspem os dados públicos de seus sites? Além disso, quando os dados são tornados públicos pelos usuários, como a plataforma pode chegar a tal ponto reivindicando direitos para impedir que outros o acessem?

Embora o caso esteja longe de terminar, a última decisão diz que o HiQ e seus algoritmos são livres para rastrear dados e o LinkedIn precisa permitir. O juiz pareceu concordar com o argumento do hiQ de que a coleta de dados públicos do hiQ poderia ser uma atividade protegida pela Primeira Emenda e deu a seguinte ordem:

Na medida em que o LinkedIn já implementou tecnologia para impedir que o hiQ acesse esses perfis públicos, é ordenado que remova tais barreiras.

Aqui está o link para baixar a cópia da ordem judicial, se você estiver interessado em saber mais.

Por enquanto, podemos considerar essa batalha e a última resposta do tribunal como uma vitória da liberdade de expressão para os players do negócio de soluções de dados. Isso também estabelece as bases para empresas de internet que, de outra forma, poderiam se envolver em processos criminais por acessarem páginas da web que são públicas para o mundo inteiro ver. A bola está agora no campo do LinkedIn e isso pode muito bem se tornar um argumento de liberdade de expressão.

O veredicto final irá além do LinkedIn e do hiQ Labs e pode estabelecer o precedente sobre quanto controle as empresas terão sobre os dados disponíveis publicamente hospedados por seus serviços. Acreditamos que não deve haver absolutamente nenhuma restrição ao acesso a dados públicos pela internet, e a inovação não deve ser restringida por força legal ou perseguindo a agenda anticompetitiva de um pequeno grupo de empresas poderosas.