提取公開可用的用戶生成內容的合法性 – PromptCloud

已發表: 2017-08-22

作為一家網絡數據解決方案公司,我們經常會遇到關於網絡抓取合法性的問題。 在我們回答這個問題之前,讓我們首先了解“網絡抓取”這個術語。 簡單地說,它是網絡爬取(查找網頁並下載它們)的一部分,涉及從網頁中提取數據以收集相關信息。 這裡的關鍵因素是機器人(類似於 Google 機器人)以自動方式執行此活動,從而消除了人的手動活動。 當機器人訪問網頁以獲取內容時,它們的行為與瀏覽器代理調用頁面的方式非常相似。 那麼,為什麼我們有這麼多關於“刮擦”的喧囂呢? 這背後的原因可主要歸因於對既定協議的不尊重。

公開可用的用戶生成內容

以下是任何希望從網絡上抓取數據的人都必須遵守的一些基本規則:

  • 機器人.txt 文件

此文件指定網站希望如何被抓取。 它包括可訪問頁面、受限頁面、請求限制的列表,除了明確提到的允許或阻止爬行的機器人。 查看這篇文章,了解有關閱讀和尊重 robots.txt 文件的更多信息。

  • 使用條款

另一個重要的檢查點是條款和條件頁面,該頁面討論瞭如何收集和使用數據的細節以及其他指南。 確保您沒有違反本頁提及的任何內容。

  • 公開內容

除非您獲得該網站的許可,否則請堅持向公眾提供的數據。 這意味著如果只能通過登錄訪問數據,則它適用於站點用戶,而不是機器人。

  • 抓取頻率

robots.txt 文件提到了爬蟲程序可以訪問網站的抓取頻率和速率。 因此,您必須堅持這一點,如果沒有提到這一點,您有責任確保站點服務器不會因點擊而過載。 這是確保刮板禮貌所必需的; 服務器不會耗盡其資源,也無法為實際用戶提供服務。

除了這些強制性規則之外,本文還介紹了其他網絡抓取的最佳實踐。 回到我們的第一個問題,即網絡抓取是否合法?我們可以肯定地說,如果您遵守上述規則,那麼您就處於合法範圍內。 但是,您必須得到律師的驗證才能完全安全。 有幾起訴訟案例,例如 Facebook 訴 Pete Warden、美聯社訴 Meltwater Holdings, Inc.、西南航空公司訴 BoardFirst, LLC 等。

也就是說,我們周圍還有一個更大的問題——託管 PB 級公開可用數據(尤其是用戶生成的數據)的強大公司是否應該在提供對這些數據的訪問時具有選擇性? 這個問題基本上圍繞著最近與涉及 LinkedIn(由 Microsoft 擁有)和 hiQ Labs 的法律訴訟相關的事件。 對於外行來說,hiQ Labs 是一家初創公司,它從 LinkedIn 上的公共資料中抓取數據來訓練其機器學習算法。 5 月,LinkedIn 向 hiQ 發送了一封停止 (C&D) 信函,指示他們停止從其社交網絡中抓取數據。 這封信提到了幾起案件,包括 Craigslist Inc. 訴 3Taps Inc.,其中對 3Taps 的判決是針對 3Taps 的,他們被發現違反了《計算機欺詐和濫用法》,因為它們繞過了 Craigslist 部署的 IP 阻止技術。 我們還應該注意到,LinkedIn 已經對 hiQ 實施了訪問公共數據的技術措施。 然而,HiQ Labs 在 6 月對 LinkedIn 提起訴訟,稱 LinkedIn 違反了反壟斷法。

hiQ 提出的主要問題之一是 LinkedIn 的反競爭做法,該做法表明 LinkedIn 希望推出自己的分析和數據科學解決方案,而這些解決方案可能會被前者的產品嚇倒。 他們還表示,LinkedIn 已經了解他多年,他們甚至在某個數據分析會議上接受了 hiQ 的獎項。

來到問題的癥結所在,我們可以看到訪問 LinkedIn 上的公共個人資料頁面不需要“授權”。 因此,LinkedIn 聲稱通過繞過身份驗證要求來抓取這些數據可能違反了《計算機欺詐和濫用法》並沒有堅實的基礎。 這種情況的特別之處在於,hiQ 僅抓取公開可用的數據,而在其他情況下,抓取工具在沒有通知的情況下侵犯了用戶的隱私或數據使用。 如果我們只考慮手動活動,任何人都可以單擊每個配置文件並查看數據以復制所有信息,然後將數據提供給計算系統。 雖然理論上可行,但這是一種低效且容易出錯的數據收集方式,因為這需要大量的時間和人力。 這就是為什麼我們有可編程機器人以自動化和重複的方式完成這項任務的主要原因。

LinkedIn 允許搜索引擎抓取和索引他們的公共頁面以推廣他們的網絡。 那麼為什麼其他應用程序和網站不應該通過從相同的數據中獲益來獲得一個公平的競爭環境呢? 因此,需要思考的問題是——電力公司是否有權阻止機器人從其網站上抓取公共數據? 而且,數據已經被用戶公開了,平台又怎麼會到這種程度,聲稱有權阻止他人訪問呢?

儘管案件遠未結束,但最新裁決稱,HiQ 及其算法可以自由抓取數據,LinkedIn 必須允許。 法官似乎對 hiQ 的論點產生了共鳴,即 hiQ 的公共數據收集可能是一項受第一修正案保護的活動,並下達了以下命令:

如果 LinkedIn 已經採取了技術來阻止 hiQ 訪問這些公開資料,它被命令消除任何此類障礙。

如果您有興趣了解更多信息,請點擊此處下載法院命令副本。

目前,我們可以將這場戰鬥和法庭的最新回應視為數據解決方案行業參與者言論自由的勝利。 這也為互聯網公司奠定了基礎,否則這些公司可能會因訪問公開給全世界的網頁而捲入刑事案件。 球現在在LinkedIn的法庭上,這很可能成為一個言論自由的論點。

最終裁決將超越 LinkedIn 和 hiQ Labs,並可能開創一個先例,即企業將對其服務託管的公開數據擁有多少控制權。 我們認為,通過互聯網獲取公共數據絕對不應受到任何限制,創新不應受到法律強硬或一小撮強大公司的反競爭議程的限制。