Законность извлечения общедоступного пользовательского контента – PromptCloud

Опубликовано: 2017-08-22

Как компания, занимающаяся решениями для веб-данных, мы часто сталкиваемся с вопросами о законности парсинга веб-страниц. Прежде чем мы перейдем к ответу на этот вопрос, давайте сначала разберемся с термином «веб-скрейпинг». Проще говоря, это часть веб-сканирования (поиск веб-страниц и их загрузка), которая включает извлечение данных с веб-страниц для сбора соответствующей информации. Ключевым фактором здесь является то, что бот (похожий на бот Google) выполняет это действие в автоматическом режиме и тем самым устраняет ручную деятельность человека. Когда боты заходят на веб-страницы для захвата контента, они действуют точно так же, как браузер-агент обращается к страницам. Итак, почему у нас так много шумихи вокруг «скрапинга»? Причиной этого, прежде всего, может быть несоблюдение установленных протоколов.

Общедоступный пользовательский контент

Вот некоторые из основных правил, которым должен следовать любой, кто хочет сканировать данные из Интернета:

Файл robots.txt

Этот файл указывает, как веб-сайт должен сканироваться. Он включает в себя список доступных страниц, запрещенных страниц, лимит запросов, кроме явно упомянутых ботов, которым разрешено или заблокировано сканирование. Прочтите этот пост, чтобы узнать больше о чтении и соблюдении файла robots.txt.

Условия эксплуатации

Еще одним важным контрольным пунктом является страница условий и положений, на которой рассказывается об особенностях сбора и использования этих данных, а также о других рекомендациях. Убедитесь, что вы не нарушаете ничего, упомянутого на этой странице.

Общедоступный контент

Если у вас нет разрешения от сайта, придерживайтесь общедоступных данных. Это означает, что если к данным можно получить доступ только войдя в систему, они предназначены для пользователей сайта, а не для ботов.

Частота сканирования

В файле robots.txt упоминается частота сканирования и скорость, с которой боты могут попасть на сайт. Следовательно, вы должны придерживаться этого, и в случае, если это не было упомянуто, на вас лежит ответственность за то, чтобы сервер сайта не был перегружен посещениями. Это необходимо, чтобы убедиться, что парсер вежлив; сервер не исчерпывает свои ресурсы и не может обслуживать реальных пользователей.

Помимо этих обязательных правил, существуют и другие передовые методы парсинга веб-страниц, которые были рассмотрены в этом посте. Возвращаясь к нашему первому вопросу, т. е. является ли веб-скрапинг законным или нет? — мы можем с уверенностью сказать, что если вы придерживаетесь вышеупомянутых правил, вы находитесь в легальном периметре. Но, чтобы быть в полной безопасности, вы должны проверить это у юриста. Было несколько судебных процессов, таких как Facebook против Пита Уордена, Associated Press против Meltwater Holdings, Inc., Southwest Airlines Co. против BoardFirst, LLC и других.

Тем не менее, перед нами стоит более важный вопрос — должны ли влиятельные компании, которые размещают петабайты общедоступных данных (особенно данных, созданных пользователями), быть избирательными при предоставлении доступа к ним? Этот вопрос в основном связан с недавними событиями, связанными с судебными разбирательствами с участием LinkedIn (принадлежит Microsoft) и hiQ Labs. Для непосвященных: hiQ Labs — это стартап, который собирал данные из общедоступных профилей в LinkedIn для обучения своих алгоритмов машинного обучения. В мае LinkedIn отправил hiQ письмо о прекращении (C&D) с указанием прекратить сбор данных из своей социальной сети. В письме упоминалось несколько дел, в том числе Craigslist Inc. против 3Taps Inc., в котором вердикт был вынесен против 3Taps, и они были признаны нарушающими Закон о компьютерном мошенничестве и злоупотреблениях за обход методов блокировки IP-адресов, развернутых Craigslist. Следует также отметить, что LinkedIn внедрила технические меры для предотвращения доступа к общедоступным данным. Однако HiQ Labs в ответ подала иск против LinkedIn в июне, сославшись на то, что LinkedIn нарушила антимонопольное законодательство.

Одна из основных проблем, поднятых hiQ, связана с антиконкурентной практикой LinkedIn, в которой говорится, что LinkedIn хотела развернуть свои собственные решения для аналитики и обработки данных, которые могут быть сдерживаемы предложениями первого. Они также заявляют, что LinkedIn уже много лет знали о нем и даже получили награду от hiQ на одной из конференций по аналитике данных.

Переходя к сути проблем, мы видим, что «авторизация» не требуется для доступа к общедоступным страницам профиля в LinkedIn. Следовательно, утверждение LinkedIn о том, что очистка этих данных может быть нарушением Закона о компьютерном мошенничестве и злоупотреблениях путем обхода требования аутентификации, не имеет прочного основания. Что делает этот случай особенным, так это то, что hiQ собирает только общедоступные данные, тогда как в других случаях парсеры нарушали конфиденциальность пользователей или использование данных без предварительного уведомления. Если мы просто рассмотрим ручную деятельность, любой может щелкнуть по каждому профилю и просмотреть данные, чтобы скопировать всю информацию, а затем передать данные в вычислительную систему. Хотя теоретически это осуществимо, это неэффективный и подверженный ошибкам способ сбора данных, так как это требует огромного времени и человеческих ресурсов. Это основная причина, по которой у нас есть программируемые боты для автоматического и повторяющегося выполнения этой задачи.

LinkedIn позволяет поисковым системам сканировать и индексировать общедоступные страницы для продвижения своей сети. Тогда почему бы остальным приложениям и веб-сайтам не получить равные условия, получая выгоду от тех же данных? Таким образом, вопрос для размышления: имеют ли энергетические компании право запретить роботам соскребать публичные данные со своих сайтов? Более того, когда данные были обнародованы пользователями, как платформа может зайти так далеко, заявляя о правах блокировать доступ к ним других?

Хотя дело далеко не завершено, в последнем постановлении говорится, что HiQ и его алгоритмы могут свободно сканировать данные, и LinkedIn должен это разрешить. Судья, похоже, согласился с аргументом hiQ о том, что сбор общедоступных данных hiQ может быть деятельностью, защищенной Первой поправкой, и отдал следующий приказ:

В той степени, в которой LinkedIn уже внедрила технологию, предотвращающую доступ hiQ к этим общедоступным профилям, ему приказано устранить любые такие барьеры.

Вот ссылка для загрузки копии постановления суда, если вы хотите узнать больше.

На данный момент мы можем рассматривать эту битву и последний ответ суда как победу свободы слова для игроков в бизнесе решений для данных. Это также закладывает основу для интернет-компаний, которые в противном случае могли бы быть замешаны в уголовных делах за доступ к веб-страницам, общедоступным для всего мира. Теперь дело за LinkedIn, и это вполне может оказаться спором о свободе слова.

Окончательный вердикт будет выходить за рамки LinkedIn и hiQ Labs и может стать прецедентом в отношении того, насколько предприятия будут контролировать общедоступные данные, размещенные их службами. Мы считаем, что не должно быть абсолютно никаких ограничений на доступ к общедоступным данным через Интернет, а инновации не должны ограничиваться юридическим насилием или преследованием антиконкурентной программы небольшой группы влиятельных компаний.