Legalidad de la extracción de contenido generado por el usuario disponible públicamente – PromptCloud

Publicado: 2017-08-22

Como empresa de soluciones de datos web, a menudo nos encontramos con preguntas sobre la legalidad del web scraping. Antes de responder a esa pregunta, entendamos primero el término "web scraping". En pocas palabras, es una parte del rastreo web (encontrar las páginas web y descargarlas) que implica la extracción de datos de las páginas web para recopilar información relevante. El factor clave aquí es que un bot (similar al bot de Google) realiza esta actividad de manera automatizada y, por lo tanto, elimina las actividades manuales de una persona. Cuando los bots acceden a las páginas web para obtener contenido, actúan de manera bastante similar a la forma en que el agente del navegador llama a las páginas. Entonces, ¿por qué tenemos tanto alboroto en torno al "raspado"? La razón detrás de esto se puede atribuir principalmente a la falta de respeto por los protocolos establecidos.

Contenido generado por el usuario disponible públicamente

Estas son algunas de las reglas básicas que debe seguir cualquier persona que busque rastrear datos de la web:

Archivo robots.txt

Este archivo especifica cómo le gustaría que se rastreara un sitio web. Incluye la lista de páginas accesibles, páginas restringidas, límite de solicitudes además de los bots mencionados explícitamente que están permitidos o bloqueados para rastrear. Consulte esta publicación para obtener más información sobre cómo leer y respetar el archivo robots.txt.

Términos de Uso

Otro punto de control importante es la página de términos y condiciones que habla sobre los detalles de cómo se deben recopilar y usar esos datos junto con otras pautas. Asegúrese de no estar violando nada de lo mencionado en esta página.

Contenido público

A menos que tenga permiso del sitio, apéguese a los datos que están disponibles para el público. Esto significa que si solo se puede acceder a los datos iniciando sesión, están destinados a los usuarios del sitio, no a los bots.

Frecuencia de rastreo

El archivo robots.txt menciona la frecuencia de rastreo y la velocidad a la que los bots pueden acceder al sitio. Por lo tanto, debe ceñirse a esto y, en caso de que esto no se haya mencionado, usted tiene la responsabilidad de asegurarse de que el servidor del sitio no se sobrecargue con visitas. Esto es necesario para asegurarse de que el raspador sea cortés; el servidor no agota sus recursos y no sirve a los usuarios reales.

Además de estas reglas obligatorias, existen otras mejores prácticas para el web scraping que se han cubierto en esta publicación. Volviendo a nuestra primera pregunta, es decir, si el web scraping es legal o no, podemos decir con seguridad que si cumple con las reglas mencionadas anteriormente, está dentro del perímetro legal. Pero, debe hacer que un abogado verifique esto para estar completamente seguro. Ha habido varios casos de demandas como Facebook contra Pete Warden, Associated Press contra Meltwater Holdings, Inc., Southwest Airlines Co. contra BoardFirst, LLC y más.

Dicho esto, hay una pregunta más amplia a nuestro alrededor: ¿deberían las empresas poderosas que alojan petabytes de datos disponibles públicamente (especialmente datos generados por usuarios) ser selectivas al proporcionar acceso a los mismos? Esta pregunta básicamente se cierne sobre los eventos recientes relacionados con los procedimientos legales que involucran a LinkedIn (propiedad de Microsoft) y hiQ Labs. Para los no iniciados, hiQ Labs es una startup que extraía datos de los perfiles públicos de LinkedIn para entrenar sus algoritmos de aprendizaje automático. En mayo, LinkedIn envió una carta de cese (C&D) a hiQ indicándoles que dejaran de extraer datos de su red social. La carta mencionaba varios casos, incluido Craigslist Inc. v. 3Taps Inc., en el que el veredicto fue en contra de 3Taps y se descubrió que violaban la Ley de Abuso y Fraude Informático por eludir las técnicas de bloqueo de IP implementadas por Craigslist. También debemos tener en cuenta que LinkedIn había implementado medidas técnicas para que hiQ no accediera a los datos públicos. Sin embargo, HiQ Labs respondió presentando una demanda contra LinkedIn en junio, citando que LinkedIn violó las leyes antimonopolio.

Uno de los principales problemas planteados por hiQ es sobre las prácticas anticompetitivas de LinkedIn que indican que LinkedIn quería implementar sus propias soluciones de análisis y ciencia de datos que podrían verse disuadidas por las ofertas del primero. También afirman que LinkedIn ya sabía de él desde hace años e incluso habían aceptado un premio de hiQ en una determinada conferencia de análisis de datos.

Llegando al quid de la cuestión, podemos ver que no se requiere "autorización" para acceder a las páginas de perfil público en LinkedIn. Por lo tanto, la afirmación de LinkedIn de que extraer estos datos puede violar la Ley de Abuso y Fraude Informático al eludir un requisito de autenticación no tiene una base sólida. Lo que hace que este caso sea especial es que hiQ solo está extrayendo los datos que están disponibles públicamente, mientras que en otros casos los raspadores violaron la privacidad de los usuarios o el uso de datos sin previo aviso. Si solo consideramos la actividad manual, cualquiera podría hacer clic en cada perfil y mirar los datos para copiar toda la información y luego enviar los datos al sistema informático. Aunque teóricamente factible, esta es una forma ineficiente y propensa a errores de recopilación de datos, ya que requeriría mucho tiempo y mano de obra. Esa es la razón principal por la que tenemos bots programables para realizar esta tarea de forma automatizada y repetitiva.

LinkedIn permite que los motores de búsqueda rastreen e indexen sus páginas públicas para promocionar su red. Entonces, ¿por qué el resto de las aplicaciones y los sitios web no deberían obtener igualdad de condiciones al beneficiarse también de los mismos datos? Por lo tanto, el punto a considerar es: ¿las compañías eléctricas tienen derecho a impedir que los robots raspen los datos públicos de sus sitios web? Además, cuando los usuarios han hecho públicos los datos, ¿cómo puede la plataforma llegar a reclamar derechos para impedir que otros accedan a ellos?

Aunque el caso está lejos de terminar, el último fallo dice que HiQ y sus algoritmos son libres de rastrear datos y LinkedIn tiene que dejarlo. El juez pareció resonar con el argumento de hiQ de que la recopilación de datos públicos de hiQ podría ser una actividad protegida por la Primera Enmienda y emitió la siguiente orden:

En la medida en que LinkedIn ya haya implementado tecnología para evitar que hiQ acceda a estos perfiles públicos, se le ordena eliminar dichas barreras.

Aquí está el enlace para descargar la copia de la orden judicial si está interesado en obtener más información.

Por ahora, podemos considerar esta batalla y la última respuesta de la corte como una victoria de la libertad de expresión para los jugadores en el negocio de las soluciones de datos. Esto también sienta las bases para las empresas de Internet que de otro modo podrían haberse enredado en casos penales por acceder a páginas web que son públicas para que las vea todo el mundo. La pelota está ahora en la cancha de LinkedIn y esto bien podría convertirse en un argumento de libertad de expresión.

El veredicto final irá más allá de LinkedIn y hiQ Labs y podría sentar un precedente sobre cuánto control tendrán las empresas sobre los datos disponibles públicamente alojados por sus servicios. Creemos que no debe haber absolutamente ninguna restricción en el acceso a datos públicos a través de Internet, y la innovación no debe verse restringida por medidas legales estrictas o siguiendo la agenda anticompetitiva de un pequeño grupo de empresas poderosas.