提取公开可用的用户生成内容的合法性 – PromptCloud

已发表: 2017-08-22

作为一家网络数据解决方案公司,我们经常会遇到关于网络抓取合法性的问题。 在我们回答这个问题之前,让我们首先了解“网络抓取”这个术语。 简单地说,它是网络爬取(查找网页并下载它们)的一部分,涉及从网页中提取数据以收集相关信息。 这里的关键因素是机器人(类似于 Google 机器人)以自动方式执行此活动,从而消除了人的手动活动。 当机器人访问网页以获取内容时,它们的行为与浏览器代理调用页面的方式非常相似。 那么,为什么我们有这么多关于“刮擦”的喧嚣呢? 这背后的原因可主要归因于对既定协议的不尊重。

公开可用的用户生成内容

以下是任何希望从网络上抓取数据的人都必须遵守的一些基本规则:

  • 机器人.txt 文件

此文件指定网站希望如何被抓取。 它包括可访问页面、受限页面、请求限制的列表,除了明确提到的允许或阻止爬行的机器人。 查看这篇文章,了解有关阅读和尊重 robots.txt 文件的更多信息。

  • 使用条款

另一个重要的检查点是条款和条件页面,该页面讨论了如何收集和使用数据的细节以及其他指南。 确保您没有违反本页提及的任何内容。

  • 公开内容

除非您获得该网站的许可,否则请坚持向公众提供的数据。 这意味着如果只能通过登录访问数据,则它适用于站点用户,而不是机器人。

  • 抓取频率

robots.txt 文件提到了爬虫程序可以访问网站的抓取频率和速率。 因此,您必须坚持这一点,如果没有提到这一点,您有责任确保站点服务器不会因点击而过载。 这是确保刮板礼貌所必需的; 服务器不会耗尽其资源,也无法为实际用户提供服务。

除了这些强制性规则之外,本文还介绍了其他网络抓取的最佳实践。 回到我们的第一个问题,即网络抓取是否合法?我们可以肯定地说,如果您遵守上述规则,那么您就处于合法范围内。 但是,您必须得到律师的验证才能完全安全。 有几起诉讼案例,例如 Facebook 诉 Pete Warden、美联社诉 Meltwater Holdings, Inc.、西南航空公司诉 BoardFirst, LLC 等。

也就是说,我们周围还有一个更大的问题——托管 PB 级公开可用数据(尤其是用户生成的数据)的强大公司是否应该在提供对这些数据的访问时具有选择性? 这个问题基本上围绕着最近与涉及 LinkedIn(由 Microsoft 拥有)和 hiQ Labs 的法律诉讼相关的事件。 对于外行来说,hiQ Labs 是一家初创公司,它从 LinkedIn 上的公共资料中抓取数据来训练其机器学习算法。 5 月,LinkedIn 向 hiQ 发送了一封停止 (C&D) 信函,指示他们停止从其社交网络中抓取数据。 这封信提到了几起案件,包括 Craigslist Inc. 诉 3Taps Inc.,其中对 3Taps 的判决是针对 3Taps 的,他们被发现违反了《计算机欺诈和滥用法》,因为它们绕过了 Craigslist 部署的 IP 阻止技术。 我们还应该注意到,LinkedIn 已经对 hiQ 实施了访问公共数据的技术措施。 然而,HiQ Labs 在 6 月对 LinkedIn 提起诉讼,称 LinkedIn 违反了反垄断法。

hiQ 提出的主要问题之一是 LinkedIn 的反竞争做法,该做法表明 LinkedIn 希望推出自己的分析和数据科学解决方案,而这些解决方案可能会被前者的产品吓倒。 他们还表示,LinkedIn 已经了解他多年,他们甚至在某个数据分析会议上接受了 hiQ 的奖项。

来到问题的症结所在,我们可以看到访问 LinkedIn 上的公共个人资料页面不需要“授权”。 因此,LinkedIn 声称通过绕过身份验证要求来抓取这些数据可能违反了《计算机欺诈和滥用法》并没有坚实的基础。 这种情况的特别之处在于,hiQ 仅抓取公开可用的数据,而在其他情况下,抓取工具在没有通知的情况下侵犯了用户的隐私或数据使用。 如果我们只考虑手动活动,任何人都可以单击每个配置文件并查看数据以复制所有信息,然后将数据提供给计算系统。 虽然理论上可行,但这是一种低效且容易出错的数据收集方式,因为这需要大量的时间和人力。 这就是为什么我们有可编程机器人以自动化和重复的方式完成这项任务的主要原因。

LinkedIn 允许搜索引擎抓取和索引他们的公共页面以推广他们的网络。 那么为什么其他应用程序和网站不应该通过从相同的数据中获益来获得一个公平的竞争环境呢? 因此,需要思考的问题是——电力公司是否有权阻止机器人从其网站上抓取公共数据? 而且,数据已经被用户公开了,平台又怎么会到这种程度,声称有权阻止他人访问呢?

尽管案件远未结束,但最新裁决称,HiQ 及其算法可以自由抓取数据,LinkedIn 必须允许。 法官似乎对 hiQ 的论点产生了共鸣,即 hiQ 的公共数据收集可能是一项受第一修正案保护的活动,并下达了以下命令:

如果 LinkedIn 已经采取了技术来阻止 hiQ 访问这些公开资料,它被命令消除任何此类障碍。

如果您有兴趣了解更多信息,请点击此处下载法院命令副本。

目前,我们可以将这场战斗和法庭的最新回应视为数据解决方案行业参与者言论自由的胜利。 这也为互联网公司奠定了基础,否则这些公司可能会因访问公开给全世界的网页而卷入刑事案件。 球现在在LinkedIn的法庭上,这很可能成为一个言论自由的论点。

最终裁决将超越 LinkedIn 和 hiQ Labs,并可能开创一个先例,即企业将对其服务托管的公开数据拥有多少控制权。 我们认为,通过互联网获取公共数据绝对不应受到任何限制,创新不应受到法律强硬或一小撮强大公司的反竞争议程的限制。