コンテンツ発見プラットフォームが Web スクレイピングと AI を介してフェイク ニュースと戦う方法

公開: 2017-06-20
目次を見る
問題の大きさは?
AIは役に立ちますか?
Webスクレイピングの役割
手動レイヤーの追加

人々がニュースを従来のメディアに頼らなければならなかった時代は終わりました。 現在、彼らはインターネット上の膨大な数のオンライン メディア アウトレットによるニュースで攻撃されています。 ニュースやストーリーに追いつく時間が限られている平均的な人にとっては、情報過多です。 ソーシャル メディアは現在、ニュースの媒体として機能しており、ユーザーの読書習慣に合わせてフィードをカスタマイズすることで、ユーザーのエクスペリエンスを向上させています。 ただし、ソーシャル メディアと Web パブリッシングのこの大規模な普及には、独自の欠点があります。

フェイクニュースデータのWebスクレイピング

WordPress などの使いやすいコンテンツ管理システムが広く普及したことで、誰でも簡単に Web パブリッシャーになることができるようになりました。 これは、文字通り誰でも何でも書いて公開できることを意味します。質問はありません。 これにより、コンテンツ パブリッシング ネットワークやブロガーに幅広い可能性が開かれたことは事実です。 しかし、すべての強力なものの場合と同様に、すぐに利用できる出版技術が、大規模なグループによって悪用され、おぞましい動機でフェイク ニュースが拡散されています。 フェイク ニュースは、表面的に見えるものよりも大きな問題です。 社会に大混乱をもたらし、企業やその他の施設に悪影響を与える可能性さえあります。

問題の大きさは?

フェイクニュースの拡散は、最近のアメリカ大統領選挙でドナルド・トランプに有利な方向に傾いたと言われています。 主張の真相に関係なく、フェイク ニュースは間違いなく大衆の世論に不健全な影響を与える可能性があります。 フェイク ニュースの拡散は、社会に不信感を抱かせる可能性があります。これは、他の多くの社会悪の根本原因となるゆっくりとした毒です。 たとえば、フェイク ニュースは、共同体の暴力を助長し、人々の生活に不安な雰囲気を作り出す可能性があります。

フェイクニュースとして簡単に具体化できる特定のトピックがあります。 権力の乱用、疎外への恐怖、戦争と平和の問題などは山火事のように簡単に広がり、取り返しのつかない損害を引き起こす可能性があります。

影響を受けた企業が確実に顧客を失うことを確実にするために、その企業についての誤った噂を広めることによって、競合他社を打ち負かす中傷キャンペーンを実行している企業の事例がありました。

ごく最近、シリア難民がフェイスブックを訴えたのは、彼をテロリズムに結びつけるフェイクニュースがソーシャルネットワーク上に広がった後だった. Facebookは後に投稿を削除しましたが、被害はすでに発生していました。

このような問題が発生し続けると、コンテンツ ディスカバリー プラットフォームやソーシャル メディア サイト自体が訴訟の危険にさらされる可能性があります。 これは、そのようなニュースが広まるコンテンツ ディスカバリー プラットフォームの評判にも影響を与え、ユーザー エンゲージメントの低下につながります。 このようにさまざまな影響があるため、フェイク ニュースは大きな問題であり、芽を摘む必要があります。

AIは役に立ちますか?

フェイク ニュースを検出して対処することは、間違いなく困難な作業です。 コンテンツ発見プラットフォームで共有されているすべての投稿を人間が調べて、その信憑性を評価することは、確かに現実的な解決策ではありません。 幸いなことに、私たちはもはや人間がすべての大変な仕事をしなければならない時代に生きていません。

人工知能は、かつての SF の概念から大きく進歩しました。 現在、強力な音声、画像、パターン認識アルゴリズムと、それらを実行するための計算能力があります。

この問題の深さを考えると、人工知能と機械学習を使用してフェイク ニュースと戦うことが最善の方法です。 マシンがフェイク ニュースを検出できるようにするには、まず、フェイク ニュースの投稿に共通する特徴を特定する必要があります。 これを実現する方法を見てみましょう。

ウェブサイトの評判

Web サイトの評判は、Web サイトで公開された記事の信頼性を評価するために使用できる重要な指針の 1 つです。 検索エンジンの巨人である Google は、評判に関して Web ページを SERP でランク付けするのに優れた仕事をしています。 Google 独自のアルゴリズムを使用してフェイク ニュースを検出することはできませんが、DA、Alexa ランク、ドメイン年齢など、他の多くの Web サイトのランキング シグナルを使用して、独自のフェイク ニュース検出システムで Web ページをランク付けすることはできます。 Alexa ランクが高い古いサイトは信頼できるソースである可能性が高く、その逆は浅い Web サイトを示している可能性があります。

自然言語処理

自然言語処理は、最も単純な定義では、機械が人間の言語を真に理解し、人間と同じように処理する能力です。 NLP エンジンは、機械学習アルゴリズムにテキスト コーパスを供給することによって構築されます。 フェイク ニュースを真に検出するには、マシンが人間と同じように人間の言語を解釈できなければなりません。 フェイク ニュースの検出に関して言えば、 NLPエンジンには、本物の記事だけでなくフェイクの記事にも属する膨大な量のテキスト データを入力する必要があります。 そこから、フェイク ニュースのコードを解読することができます。これにより、基本的にマシンはフェイク ニュースを適切な精度で検出できるようになります。 アルゴリズムが偽のニュース投稿を見つけるために使用できる 2 つのことを次に示します。

a)内部一貫性

偽の記事や誤解を招く記事は、投稿自体のさまざまな部分に大きな矛盾があることがよくあります。 タイトル、本文、スニペットなどを言います。NLP システムを使用して、記事内に示されている事実が一貫しているか、矛盾しているかをスキャンして評価できます。

b)センセーショナルな言葉を探す

過度にセンセーショナルな記事は、多くの場合、偽物である傾向があります。 自然言語処理システムを使用して、ニュース記事内のセンセーショナルな言葉の使用から記事のセンセーショナルな側面を定義できます。

Webスクレイピングの役割

偽のニュースを検出できる人工知能エンジンには、機械学習アルゴリズムのトレーニングに使用される膨大な量のデータが必要になることは明らかです。 効率的な Web スクレイピングに使用できる高度な技術があることを考えると、Web からデータを抽出することは問題になりません。 ただし、偽のニュースを検出すること自体が課題であるため、 PromptCloudなどのサービスとしてのデータ (DaaS) ソリューションを使用して、メディア アウトレット (本物と偽物の両方) からデータを取得することをお勧めします。 データ抽出プロセスのエンドツーエンドの責任を負うため、Web スクレイピングに関連する複雑さをスキップし、社内スクレイピングと比較して大幅に低いコストですぐに使用できるデータを取得できます。

手動レイヤーの追加

マシンが合図を識別し、偽物と思われる投稿にフラグを立てると、小さな人間のレイヤーを使用して調査結果を検証できます。 これは、すべての重労働が AI システムによって既に行われているため、簡単です。 手動レイヤーを配置すると、システムは非常に高い精度で偽のニュースを検出するのに十分強力になります. コンテンツ ディスカバリー プラットフォームやソーシャル メディア サイトの場合、フェイク ニュースを排除する機能は、時間が経つにつれてユーザーの関与を維持するために不可欠であり、ユーザーはそのようなプラットフォームで広がるニュースへの信頼を失います。 この点で、AI と Web データ抽出の可能性は計り知れず、できるだけ早くこの悪と戦うために利用する必要があります。