公開されているユーザー生成コンテンツの抽出の合法性 – PromptCloud

公開: 2017-08-22

Web データ ソリューション企業として、Web スクレイピングの合法性に関する質問によく遭遇します。 その質問に答える前に、まず「Web スクレイピング」という用語を理解しましょう。 簡単に言えば、関連情報を収集するために Web ページからデータを抽出する Web クロール (Web ページを見つけてダウンロードすること) の一部です。 ここでの重要な要素は、ボット (Google ボットに似ています) がこのアクティビティを自動化された方法で実行し、それによって人の手動アクティビティを排除することです。 ボットが Web ページにアクセスしてコンテンツを取得する場合、ブラウザー エージェントがページを呼び出す方法と非常によく似た動作をします。 では、なぜ「スクレイピング」がこれほどまでに騒がれているのでしょうか? この背後にある理由は、主に確立されたプロトコルに対する軽視に起因する可能性があります。

公開されているユーザー生成コンテンツ

以下は、Web からデータをクロールしようとするすべての人が従わなければならない基本ルールの一部です。

  • robots.txt ファイル

このファイルは、Web サイトのクロール方法を指定します。 これには、クロールが許可またはブロックされている明示的に言及されたボットとは別に、アクセス可能なページ、制限されたページ、リクエスト制限のリストが含まれます。 robots.txt ファイルの読み取りと尊重について詳しくは、この投稿をご覧ください。

  • 利用規約

もう 1 つの重要なチェックポイントは、データの収集方法とその他のガイドラインと一緒に使用する方法の詳細について説明している利用規約のページです。 このページに記載されている内容に違反していないことを確認してください。

  • 公開コンテンツ

サイトからの許可がない限り、公開されているデータに固執してください。 これは、ログインすることによってのみデータにアクセスできる場合、それはボット向けではなく、サイト ユーザー向けであることを意味します。

  • クロール頻度

robots.txt ファイルには、ボットがサイトにアクセスできるクロールの頻度とレートが記載されています。 したがって、これに固執する必要があります。これが言及されていない場合は、サイト サーバーがヒットによって過負荷にならないようにする責任があります。 これは、スクレーパーが丁寧であることを確認するために必要です。 サーバーはそのリソースを使い果たしず、実際のユーザーにサービスを提供できません。

これらの必須ルールとは別に、この記事で取り上げた Web スクレイピングのベスト プラクティスがあります。 最初の質問に戻ります。つまり、Web スクレイピングが合法かどうかということです。上記の規則を順守している場合は、法的境界線にいると言えます。 ただし、完全に安全な側にいるためには、これを弁護士に確認してもらう必要があります。 Facebook対Pete Warden、Associated Press対Meltwater Holdings、Inc.、Southwest Airlines Co.対BoardFirst、LLCなど、いくつかの訴訟がありました。

とはいえ、私たちの周りにはもっと大きな問題があります — ペタバイト単位の公開データ (特にユーザー生成データ) をホストする強力な企業は、同じものへのアクセスを提供しながら選択的であるべきですか? この質問は基本的に、LinkedIn (Microsoft が所有) と hiQ Labs が関与する法的手続きに関連する最近の出来事の周りに迫っています。 初心者向けに説明すると、hiQ Labs は機械学習アルゴリズムをトレーニングするために LinkedIn の公開プロフィールからデータをスクレイピングしていたスタートアップです。 5 月、LinkedIn は hiQ に停止 (C&D) レターを送信し、ソーシャル ネットワークからのデータのスクレイピングを停止するよう指示しました。 この書簡は、Craigslist Inc. v. 3Taps Inc. を含むいくつかの事例に言及していました。この判決は 3Taps に対するものであり、Craigslist によって展開された IP ブロッキング技術をバイパスしたため、コンピューター詐欺および乱用法に違反していたことが判明しました。 また、LinkedIn が公開データへのアクセスから hiQ への技術的対策を実施したことにも注意する必要があります。 しかし、HiQ Labs は、LinkedIn が反トラスト法に違反していることを理由に、6 月に LinkedIn に対して訴訟を起こすことで対応しました。

hiQ によって提起された主要な問題の 1 つは、LinkedIn の反競争的な慣行に関するもので、LinkedIn は独自の分析およびデータ サイエンス ソリューションを展開したいと述べていますが、これは前者の提供物によって妨げられる可能性があります。 また、LinkedIn は彼のことを何年も前から知っていて、特定のデータ分析カンファレンスで hiQ から賞を受賞したこともあると述べています。

問題の核心に迫ると、LinkedIn の公開プロフィール ページにアクセスするのに「承認」は必要ないことがわかります。 したがって、このデータをスクレイピングすることは、認証要件を回避することによってコンピューター詐欺および虐待防止法に違反する可能性があるという LinkedIn の主張には、強力な根拠がありません。 このケースを特別なものにしているのは、hiQ が公開されているデータのみをスクレイピングしているのに対し、他のケースでは、スクレイパーがユーザーのプライバシーやデータの使用を予告なしに侵害していたことです。 手作業だけを考えると、誰でもすべてのプロファイルをクリックしてデータを見て、すべての情報をコピーし、データをコンピューティング システムにフィードできます。 理論的には実現可能ですが、これは膨大な時間と労力を必要とするため、非効率的でエラーが発生しやすいデータ収集方法です。 これが、自動化された反復的な方法でこのタスクを実行するプログラム可能なボットがある主な理由です。

LinkedIn を使用すると、検索エンジンは公開ページをクロールしてインデックスに登録し、ネットワークを宣伝できます。 では、残りのアプリケーションや Web サイトも、同じデータから利益を得ることによって公平な競争の場を得るべきではないのはなぜでしょうか? したがって、熟考すべきポイントは、電力会社には、ロボットが Web サイトから公開データをスクレイピングするのを阻止する権利があるかということです。 さらに、データがユーザーによって公開されている場合、プラットフォームは他のユーザーがデータにアクセスするのをブロックする権利を主張することができるのでしょうか?

訴訟はまだ終わっていませんが、最新の判決では、HiQ とそのアルゴリズムは自由にデータをクロールでき、LinkedIn はそれを許可する必要があるとされています。 裁判官は、hiQ の公開データ収集が修正第 1 条によって保護される活動である可能性があるという hiQ の主張に共鳴したようで、次の命令を下しました。

hiQ がこれらの公開プロフィールにアクセスできないように、LinkedIn がすでに技術を導入している限り、そのような障壁を取り除くように命じられています。

詳細を知りたい場合は、裁判所命令のコピーをダウンロードするためのリンクを次に示します。

今のところ、この戦いと裁判所の最新の対応は、データ ソリューション ビジネスのプレーヤーの言論の自由の勝利と見なすことができます。 これは、全世界に公開されている Web ページにアクセスすることで刑事事件に巻き込まれる可能性があったインターネット企業の基盤にもなります。 ボールは現在LinkedInの法廷にあり、これは言論の自由の議論になる可能性が非常に高い.

最終的な評決は、LinkedIn や hiQ Labs にとどまらず、企業が自社のサービスでホストされている公開データをどの程度管理できるかについて、前例を作る可能性があります。 私たちは、インターネットを介した公開データへのアクセスを絶対に制限すべきではないと信じています。また、強力な法的手段を講じたり、少数の強力な企業グループの反競争的な議題を追求したりすることによって、イノベーションを制限してはならないと考えています。