Законность извлечения общедоступного пользовательского контента – PromptCloud
Опубликовано: 2017-08-22Как компания, занимающаяся решениями для веб-данных, мы часто сталкиваемся с вопросами о законности парсинга веб-страниц. Прежде чем мы перейдем к ответу на этот вопрос, давайте сначала разберемся с термином «веб-скрейпинг». Проще говоря, это часть веб-сканирования (поиск веб-страниц и их загрузка), которая включает извлечение данных с веб-страниц для сбора соответствующей информации. Ключевым фактором здесь является то, что бот (похожий на бот Google) выполняет это действие в автоматическом режиме и тем самым устраняет ручную деятельность человека. Когда боты заходят на веб-страницы для захвата контента, они действуют точно так же, как браузер-агент обращается к страницам. Итак, почему у нас так много шумихи вокруг «скрапинга»? Причиной этого, прежде всего, может быть несоблюдение установленных протоколов.
Вот некоторые из основных правил, которым должен следовать любой, кто хочет сканировать данные из Интернета:
- Файл robots.txt
Этот файл указывает, как веб-сайт должен сканироваться. Он включает в себя список доступных страниц, запрещенных страниц, лимит запросов, кроме явно упомянутых ботов, которым разрешено или заблокировано сканирование. Прочтите этот пост, чтобы узнать больше о чтении и соблюдении файла robots.txt.
- Условия эксплуатации
Еще одним важным контрольным пунктом является страница условий и положений, на которой рассказывается об особенностях сбора и использования этих данных, а также о других рекомендациях. Убедитесь, что вы не нарушаете ничего, упомянутого на этой странице.
- Общедоступный контент
Если у вас нет разрешения от сайта, придерживайтесь общедоступных данных. Это означает, что если к данным можно получить доступ только войдя в систему, они предназначены для пользователей сайта, а не для ботов.
- Частота сканирования
В файле robots.txt упоминается частота сканирования и скорость, с которой боты могут попасть на сайт. Следовательно, вы должны придерживаться этого, и в случае, если это не было упомянуто, на вас лежит ответственность за то, чтобы сервер сайта не был перегружен посещениями. Это необходимо, чтобы убедиться, что парсер вежлив; сервер не исчерпывает свои ресурсы и не может обслуживать реальных пользователей.
Помимо этих обязательных правил, существуют и другие передовые методы парсинга веб-страниц, которые были рассмотрены в этом посте. Возвращаясь к нашему первому вопросу, т. е. является ли веб-скрапинг законным или нет? — мы можем с уверенностью сказать, что если вы придерживаетесь вышеупомянутых правил, вы находитесь в легальном периметре. Но, чтобы быть в полной безопасности, вы должны проверить это у юриста. Было несколько судебных процессов, таких как Facebook против Пита Уордена, Associated Press против Meltwater Holdings, Inc., Southwest Airlines Co. против BoardFirst, LLC и других.
Тем не менее, перед нами стоит более важный вопрос — должны ли влиятельные компании, которые размещают петабайты общедоступных данных (особенно данных, созданных пользователями), быть избирательными при предоставлении доступа к ним? Этот вопрос в основном связан с недавними событиями, связанными с судебными разбирательствами с участием LinkedIn (принадлежит Microsoft) и hiQ Labs. Для непосвященных: hiQ Labs — это стартап, который собирал данные из общедоступных профилей в LinkedIn для обучения своих алгоритмов машинного обучения. В мае LinkedIn отправил hiQ письмо о прекращении (C&D) с указанием прекратить сбор данных из своей социальной сети. В письме упоминалось несколько дел, в том числе Craigslist Inc. против 3Taps Inc., в котором вердикт был вынесен против 3Taps, и они были признаны нарушающими Закон о компьютерном мошенничестве и злоупотреблениях за обход методов блокировки IP-адресов, развернутых Craigslist. Следует также отметить, что LinkedIn внедрила технические меры для предотвращения доступа к общедоступным данным. Однако HiQ Labs в ответ подала иск против LinkedIn в июне, сославшись на то, что LinkedIn нарушила антимонопольное законодательство.
Одна из основных проблем, поднятых hiQ, связана с антиконкурентной практикой LinkedIn, в которой говорится, что LinkedIn хотела развернуть свои собственные решения для аналитики и обработки данных, которые могут быть сдерживаемы предложениями первого. Они также заявляют, что LinkedIn уже много лет знали о нем и даже получили награду от hiQ на одной из конференций по аналитике данных.
Переходя к сути проблем, мы видим, что «авторизация» не требуется для доступа к общедоступным страницам профиля в LinkedIn. Следовательно, утверждение LinkedIn о том, что очистка этих данных может быть нарушением Закона о компьютерном мошенничестве и злоупотреблениях путем обхода требования аутентификации, не имеет прочного основания. Что делает этот случай особенным, так это то, что hiQ собирает только общедоступные данные, тогда как в других случаях парсеры нарушали конфиденциальность пользователей или использование данных без предварительного уведомления. Если мы просто рассмотрим ручную деятельность, любой может щелкнуть по каждому профилю и просмотреть данные, чтобы скопировать всю информацию, а затем передать данные в вычислительную систему. Хотя теоретически это осуществимо, это неэффективный и подверженный ошибкам способ сбора данных, так как это требует огромного времени и человеческих ресурсов. Это основная причина, по которой у нас есть программируемые боты для автоматического и повторяющегося выполнения этой задачи.
LinkedIn позволяет поисковым системам сканировать и индексировать общедоступные страницы для продвижения своей сети. Тогда почему бы остальным приложениям и веб-сайтам не получить равные условия, получая выгоду от тех же данных? Таким образом, вопрос для размышления: имеют ли энергетические компании право запретить роботам соскребать публичные данные со своих сайтов? Более того, когда данные были обнародованы пользователями, как платформа может зайти так далеко, заявляя о правах блокировать доступ к ним других?
Хотя дело далеко не завершено, в последнем постановлении говорится, что HiQ и его алгоритмы могут свободно сканировать данные, и LinkedIn должен это разрешить. Судья, похоже, согласился с аргументом hiQ о том, что сбор общедоступных данных hiQ может быть деятельностью, защищенной Первой поправкой, и отдал следующий приказ:
В той степени, в которой LinkedIn уже внедрила технологию, предотвращающую доступ hiQ к этим общедоступным профилям, ему приказано устранить любые такие барьеры.
Вот ссылка для загрузки копии постановления суда, если вы хотите узнать больше.
На данный момент мы можем рассматривать эту битву и последний ответ суда как победу свободы слова для игроков в бизнесе решений для данных. Это также закладывает основу для интернет-компаний, которые в противном случае могли бы быть замешаны в уголовных делах за доступ к веб-страницам, общедоступным для всего мира. Теперь дело за LinkedIn, и это вполне может оказаться спором о свободе слова.
Окончательный вердикт будет выходить за рамки LinkedIn и hiQ Labs и может стать прецедентом в отношении того, насколько предприятия будут контролировать общедоступные данные, размещенные их службами. Мы считаем, что не должно быть абсолютно никаких ограничений на доступ к общедоступным данным через Интернет, а инновации не должны ограничиваться юридическим насилием или преследованием антиконкурентной программы небольшой группы влиятельных компаний.