Comment les plateformes de découverte de contenu peuvent lutter contre les fausses nouvelles via le Web Scraping et l'IA

Publié: 2017-06-20

Table des matières afficher

Quelle est l'ampleur du problème ?

L'IA peut-elle aider ?

Le rôle du web scraping

Ajout d'une couche manuelle

L'époque où les gens devaient dépendre des médias traditionnels pour s'informer est révolue ; maintenant, ils sont bombardés d'informations par un grand nombre de médias en ligne sur Internet. À tel point que c'est une surcharge d'informations pour la personne moyenne qui a peu de temps pour se tenir au courant des nouvelles et des histoires. Les médias sociaux agissent désormais comme un support d'information et améliorent même l'expérience des utilisateurs en personnalisant le flux en fonction de leurs habitudes de lecture. Cependant, cette prolifération massive des médias sociaux et de la publication sur le Web a ses propres inconvénients.

Récupération de fausses informations sur le Web

La disponibilité généralisée de systèmes de gestion de contenu faciles à utiliser tels que WordPress a permis à quiconque d'être un éditeur Web plus facilement. Cela signifie que littéralement n'importe qui peut écrire et publier n'importe quoi - sans poser de questions. Il est vrai que cela a ouvert un large éventail de possibilités pour les réseaux d'édition de contenu et les blogueurs. Cependant, comme c'est le cas avec toutes les choses puissantes, la disponibilité immédiate de la technologie de publication est utilisée à mauvais escient par un grand groupe pour diffuser de fausses nouvelles avec des motifs hideux. Les fausses nouvelles sont un problème plus important que ce qu'elles semblent être en surface. Il a le potentiel de faire des ravages dans la société et même d'affecter négativement les entreprises et autres établissements.

Quelle est l'ampleur du problème ?

La prolifération des fake news aurait fait pencher la balance en faveur de Donald Trump lors de la récente élection présidentielle américaine. Indépendamment de la vérité sur les allégations, les fausses nouvelles peuvent sans aucun doute avoir un impact sur l'opinion de masse d'une manière malsaine, point final. La diffusion de fausses nouvelles peut créer de la méfiance dans la société, qui est un poison lent qui peut être à l'origine de nombreux autres maux sociaux. Par exemple, les fausses nouvelles pourraient favoriser la violence communautaire et créer une atmosphère troublante dans la vie des gens.

Certains sujets peuvent facilement être matérialisés comme de fausses nouvelles ; l'abus de pouvoir, la peur de l'aliénation, les questions de guerre et de paix, etc. peuvent facilement se propager comme une traînée de poudre, causant des dommages irréparables.

Il y a eu des cas où des entreprises ont mené des campagnes de diffamation pour faire tomber leurs concurrents en répandant de fausses rumeurs sur l'entreprise dans le but de s'assurer que l'entreprise touchée perdrait des clients.

C'est tout récemment qu'un réfugié syrien a poursuivi Facebook après que de fausses informations le liant au terrorisme se soient propagées sur le réseau social. Facebook a ensuite supprimé les publications, mais le mal était déjà fait.

Les plateformes de découverte de contenu et les sites de médias sociaux peuvent eux-mêmes être en danger de poursuites si de tels problèmes persistent. Cela affecterait également la réputation des plateformes de découverte de contenu sur lesquelles ces nouvelles se propagent, entraînant une diminution de l'engagement des utilisateurs. Avec toutes ces répercussions, les fausses nouvelles sont un énorme problème qui doit être étouffé dans l'œuf.

L'IA peut-elle aider ?

Détecter et combattre les fausses nouvelles est une entreprise difficile, cela ne fait aucun doute. Ce n'est certainement pas une solution viable d'employer des humains pour parcourir chaque message partagé sur des plateformes de découverte de contenu afin d'évaluer leur authenticité. Heureusement, nous ne vivons plus à une époque où les humains doivent faire tout le travail acharné.

L'intelligence artificielle a parcouru un long chemin depuis le concept de science-fiction qu'elle était autrefois. Nous disposons désormais de puissants algorithmes de reconnaissance de voix, d'images et de formes et de la puissance de calcul nécessaire pour les exécuter.

La lutte contre les fausses nouvelles à l'aide de l'intelligence artificielle et de l'apprentissage automatique serait la voie à suivre compte tenu de l'ampleur de ce problème. Pour permettre aux machines de détecter les fausses nouvelles, nous devrons d'abord identifier les caractéristiques communes des fausses nouvelles. Voyons comment cela peut être réalisé.

Réputation du site Web

La réputation d'un site Web est l'un des indicateurs clés qui peuvent être utilisés pour évaluer l'authenticité d'un article qui y est publié. Google, le géant des moteurs de recherche, fait un excellent travail pour classer les pages Web sur leurs SERP en fonction de leur réputation. Bien que nous ne puissions pas utiliser l'algorithme propriétaire de Google pour détecter les fausses nouvelles, nous pourrions utiliser les signaux de classement de nombreux autres sites Web tels que le DA, le classement Alexa et l'âge du domaine pour classer une page Web dans notre propre système de détection de fausses nouvelles. Les sites plus anciens avec un classement Alexa élevé sont plus susceptibles d'être des sources fiables, tandis que l'inverse peut indiquer un site Web superficiel.

Traitement du langage naturel

Le traitement du langage naturel, dans sa définition la plus simple, est la capacité d'une machine à vraiment comprendre le langage humain et à le traiter de la même manière qu'un humain. Les moteurs NLP sont construits en alimentant des algorithmes d'apprentissage automatique avec des corpus de texte. Pour vraiment détecter les fake news, les machines doivent être capables d'interpréter les langages humains comme nous le faisons. Lorsqu'il s'agit de détecter de fausses nouvelles, le moteur NLP doit être alimenté avec d'énormes quantités de données textuelles qui appartiennent à des articles authentiques ainsi qu'à de faux. À partir de là, le code des fausses nouvelles peut être déchiffré, ce qui permettra essentiellement aux machines de détecter les fausses nouvelles avec une précision décente. Voici deux choses que l'algorithme peut utiliser pour repérer les fausses nouvelles.

a) Cohérence interne

Les articles faux ou trompeurs présentent souvent de nombreuses incohérences entre les différentes parties du message lui-même ; par exemple le titre, le corps du texte, l'extrait, etc. Un système NLP peut être utilisé pour analyser et évaluer si les faits représentés dans un article sont cohérents ou contradictoires.

b) Cherchez des mots sensationnels

Les articles trop sensationnels ont souvent tendance à être faux. Un système de traitement du langage naturel peut être utilisé pour définir l'aspect sensationnel de l'article à partir de l'utilisation de mots sensationnels dans l'article d'actualité.

Le rôle du web scraping

Un moteur d'intelligence artificielle capable de détecter les fausses nouvelles nécessitera évidemment d'énormes quantités de données qui entreraient dans la formation de l'algorithme d'apprentissage automatique. L'extraction de données du Web ne devrait pas être un problème étant donné qu'il existe des technologies avancées qui peuvent être utilisées pour un grattage Web efficace. Cependant, comme la détection de fausses nouvelles est un défi en soi, il est recommandé d'utiliser une solution de données en tant que service (DaaS) comme PromptCloud pour acquérir les données des médias (authentiques et fausses). Étant donné que nous assumons la responsabilité de bout en bout du processus d'extraction des données, vous pouvez ignorer les complexités associées au scraping Web et obtenir des données prêtes à l'emploi à un coût nettement inférieur à celui du scraping interne.

Ajout d'une couche manuelle

Lorsqu'une machine identifie les indices et signale les messages qu'elle pense être faux, une petite couche humaine peut être utilisée pour valider les résultats. Ce sera facile maintenant que tout le gros du travail a déjà été fait par le système d'IA. Avec la couche manuelle en place, le système serait suffisamment puissant pour détecter les fausses nouvelles avec une très grande précision. Pour les plateformes de découverte de contenu et les sites de médias sociaux, avoir la capacité d'éliminer les fausses nouvelles s'avérerait essentiel pour garder les utilisateurs engagés au fil du temps et les utilisateurs perdent confiance dans les nouvelles diffusées sur ces plateformes. Le potentiel de l'IA et de l'extraction de données Web à cet égard est immense et devrait être utilisé pour combattre ce mal au plus tôt.