Wie Content-Discovery-Plattformen Fake News via Web Scraping und KI bekämpfen können

Veröffentlicht: 2017-06-20
Inhaltsverzeichnis anzeigen
Wie groß ist das Problem?
Kann KI helfen?
Die Rolle des Web Scraping
Hinzufügen einer manuellen Ebene

Vorbei sind die Zeiten, in denen sich die Menschen auf die traditionellen Medien verlassen mussten, um Nachrichten zu erhalten. Jetzt werden sie von einer großen Anzahl von Online-Medien im Internet mit Nachrichten bombardiert. So sehr, dass es eine Informationsüberlastung für den Durchschnittsmenschen ist, der nur begrenzt Zeit hat, sich über Neuigkeiten und Geschichten zu informieren. Soziale Medien fungieren jetzt als Medium für Nachrichten und verbessern das Erlebnis für die Benutzer sogar, indem sie den Feed an ihre Lesegewohnheiten anpassen. Diese massive Verbreitung von Social Media und Web-Publishing hat jedoch ihre eigenen Nachteile.

Gefälschte Nachrichtendaten Web Scraping

Die weit verbreitete Verfügbarkeit von benutzerfreundlichen Content-Management-Systemen wie WordPress hat es für jeden einfacher gemacht, ein Web-Publisher zu sein. Das bedeutet, dass buchstäblich jeder alles schreiben und veröffentlichen kann – es werden keine Fragen gestellt. Es ist wahr, dass dies eine Vielzahl von Möglichkeiten für Content-Publishing-Netzwerke und Blogger eröffnet hat. Wie bei allen mächtigen Dingen wird jedoch die schnelle Verfügbarkeit von Veröffentlichungstechnologie von einer großen Gruppe missbraucht, um gefälschte Nachrichten mit abscheulichen Motiven zu verbreiten. Fake News sind ein größeres Problem, als es an der Oberfläche scheint. Es hat das Potenzial, Chaos in der Gesellschaft anzurichten und sogar Unternehmen und andere Einrichtungen negativ zu beeinflussen.

Wie groß ist das Problem?

Die Verbreitung von Fake News soll bei der jüngsten amerikanischen Präsidentschaftswahl den Ausschlag zugunsten von Donald Trump gegeben haben. Ungeachtet der Wahrheit über die Anschuldigungen können gefälschte Nachrichten zweifellos die Massenmeinung auf ungesunde Weise beeinflussen, Punkt. Die Verbreitung gefälschter Nachrichten kann Misstrauen in der Gesellschaft erzeugen, was ein langsames Gift ist, das als Grundursache für viele andere soziale Übel wirken kann. Beispielsweise könnten gefälschte Nachrichten kommunale Gewalt fördern und eine beunruhigende Atmosphäre im Leben der Menschen schaffen.

Es gibt bestimmte Themen, die sich leicht als Fake News materialisieren lassen; Machtmissbrauch, Angst vor Entfremdung, Kriegs- und Friedensfragen usw. können sich leicht wie ein Lauffeuer ausbreiten und irreparable Schäden anrichten.

Es gab Fälle, in denen Unternehmen Schmierkampagnen durchführten, um ihre Konkurrenten zu Fall zu bringen, indem sie falsche Gerüchte über das Unternehmen verbreiteten, mit dem Ziel, sicherzustellen, dass das betroffene Unternehmen Kunden verliert.

Erst kürzlich verklagte ein syrischer Flüchtling Facebook , nachdem sich in dem sozialen Netzwerk gefälschte Nachrichten verbreitet hatten, die ihn mit Terrorismus in Verbindung brachten. Facebook hat die Beiträge später entfernt, aber der Schaden war bereits angerichtet.

Content-Discovery-Plattformen und Social-Media-Sites können selbst der Gefahr von Klagen ausgesetzt sein, wenn solche Probleme weiterhin auftreten. Dies würde auch den Ruf der Content-Discovery-Plattformen beeinträchtigen, auf denen sich solche Nachrichten verbreiten, was zu einer verringerten Benutzerbindung führen würde. Mit all diesen Auswirkungen sind Fake News ein riesiges Problem, das im Keim erstickt werden muss.

Kann KI helfen?

Das Erkennen und Bekämpfen von Fake News ist zweifellos ein herausforderndes Unterfangen. Es ist sicherlich keine praktikable Lösung, Menschen damit zu beauftragen, jeden auf Content-Discovery-Plattformen geteilten Beitrag auf seine Authentizität zu prüfen. Glücklicherweise leben wir nicht mehr in einer Zeit, in der Menschen die ganze harte Arbeit leisten müssen.

Künstliche Intelligenz hat sich weit von dem Science-Fiction-Konzept entfernt, das sie einst war. Wir haben jetzt leistungsstarke Sprach-, Bild- und Mustererkennungsalgorithmen und die Rechenleistung, um sie auszuführen.

Angesichts der Tiefe dieses Problems wäre die Bekämpfung von Fake News mit künstlicher Intelligenz und maschinellem Lernen der richtige Weg. Damit Maschinen Fake News erkennen können, müssen wir zunächst gemeinsame Merkmale von Fake-News-Beiträgen identifizieren. Mal sehen, wie dies erreicht werden kann.

Reputation der Website

Die Reputation einer Website ist einer der wichtigsten Anhaltspunkte, anhand derer die Authentizität eines darauf veröffentlichten Artikels bewertet werden kann. Google, der Suchmaschinengigant, leistet großartige Arbeit beim Ranking von Webseiten in ihren SERPs in Bezug auf ihren Ruf. Obwohl wir den proprietären Algorithmus von Google nicht verwenden können, um gefälschte Nachrichten zu erkennen, könnten wir die Ranking-Signale vieler anderer Websites wie den DA, den Alexa-Rang und das Domain-Alter verwenden, um eine Webseite in unserem eigenen Erkennungssystem für gefälschte Nachrichten zu bewerten. Ältere Websites mit einem hohen Alexa-Rang sind eher vertrauenswürdige Quellen, während das Gegenteil auf eine flache Website hindeuten kann.

Verarbeitung natürlicher Sprache

Die Verarbeitung natürlicher Sprache ist in ihrer einfachsten Definition die Fähigkeit einer Maschine, die menschliche Sprache wirklich zu verstehen und sie auf die gleiche Weise wie ein Mensch zu verarbeiten. NLP-Engines werden erstellt, indem maschinelle Lernalgorithmen mit Textkorpora gefüttert werden. Um Fake News wirklich zu erkennen, müssen Maschinen in der Lage sein, menschliche Sprache genauso zu interpretieren wie wir. Wenn es um die Erkennung von Fake News geht, muss die NLP -Engine mit riesigen Mengen an Textdaten gefüttert werden, die sowohl zu echten als auch zu gefälschten Artikeln gehören. Von dort aus kann der gefälschte Nachrichtencode geknackt werden, was es Maschinen im Wesentlichen ermöglicht, gefälschte Nachrichten mit angemessener Genauigkeit zu erkennen. Hier sind zwei Dinge, die der Algorithmus verwenden kann, um die gefälschten Nachrichtenbeiträge zu erkennen.

a) Interne Konsistenz

Gefälschte oder irreführende Artikel weisen oft eine große Inkonsistenz zwischen verschiedenen Teilen des Beitrags selbst auf; Sagen Sie Titel, Haupttext, Snippet usw. Ein NLP-System kann verwendet werden, um zu scannen und zu bewerten, ob die in einem Artikel dargestellten Fakten durchgehend konsistent oder widersprüchlich sind.

b) Suchen Sie nach sensationellen Wörtern

Allzu aufsehenerregende Artikel sind oft gefälscht. Ein System zur Verarbeitung natürlicher Sprache kann verwendet werden, um den sensationellen Aspekt des Artikels anhand der Verwendung sensationeller Wörter in dem Nachrichtenartikel zu definieren.

Die Rolle des Web Scraping

Eine Maschine für künstliche Intelligenz, die gefälschte Nachrichten erkennen kann, benötigt offensichtlich riesige Datenmengen, die in das Training des maschinellen Lernalgorithmus einfließen würden. Das Extrahieren von Daten aus dem Internet sollte kein Problem sein, wenn man bedenkt, dass es fortschrittliche Technologien gibt, die für effizientes Web Scraping verwendet werden können. Da das Erkennen gefälschter Nachrichten jedoch eine Herausforderung für sich ist, wird empfohlen, eine Data-as-a-Service-Lösung (DaaS) wie PromptCloud zu verwenden, um die Daten von den Medien (sowohl echte als auch gefälschte) zu erfassen. Da wir die End-to-End-Verantwortung für den Datenextraktionsprozess übernehmen, können Sie die mit Web Scraping verbundene Komplexität überspringen und gebrauchsfertige Daten zu deutlich geringeren Kosten im Vergleich zum internen Scraping erhalten.

Hinzufügen einer manuellen Ebene

Während eine Maschine Hinweise identifiziert und die Posts markiert, die sie für gefälscht hält, kann eine kleine menschliche Schicht verwendet werden, um die Ergebnisse zu validieren. Dies wird jetzt einfach, da das KI-System bereits die ganze schwere Arbeit erledigt hat. Mit der manuellen Schicht wäre das System leistungsfähig genug, um gefälschte Nachrichten mit sehr hoher Genauigkeit zu erkennen. Für Content-Discovery-Plattformen und Social-Media-Sites würde sich die Fähigkeit zum Aussortieren gefälschter Nachrichten als unerlässlich erweisen, um die Benutzer zu beschäftigen, wenn die Zeit vergeht und die Benutzer das Vertrauen in die Nachrichten verlieren, die auf solchen Plattformen verbreitet werden. Das Potenzial von KI und Webdatenextraktion in dieser Hinsicht ist immens und sollte frühestens genutzt werden, um dieses Übel zu bekämpfen.