In che modo le piattaforme di scoperta dei contenuti possono combattere le notizie false tramite il web scraping e l'intelligenza artificiale

Pubblicato: 2017-06-20
Mostra il sommario
Quanto è grande il problema?
L'IA può aiutare?
Il ruolo del web scraping
Aggiunta di un livello manuale

Sono finiti i giorni in cui le persone dovevano dipendere dai media tradizionali per le notizie; ora sono bombardati da notizie da un numero enorme di media online su Internet. Tanto che è un sovraccarico di informazioni per la persona media che ha poco tempo per aggiornarsi su notizie e storie. I social media ora fungono da mezzo per le notizie e migliorano anche l'esperienza degli utenti personalizzando il feed in base alle loro abitudini di lettura. Tuttavia, questa massiccia proliferazione di social media e pubblicazione sul web ha i suoi aspetti negativi.

Raschiamento web di dati di notizie false

La disponibilità diffusa di sistemi di gestione dei contenuti di facile utilizzo come WordPress ha reso più facile per chiunque essere un editore web. Ciò significa che letteralmente chiunque può scrivere e pubblicare qualsiasi cosa, senza fare domande. È vero che questo ha aperto una vasta gamma di possibilità per le reti di pubblicazione di contenuti e per i blogger. Tuttavia, come nel caso di tutte le cose potenti, la pronta disponibilità della tecnologia editoriale viene utilizzata in modo improprio da un grande gruppo per diffondere notizie false con motivi orribili. Le fake news sono un problema più grande di quello che sembra essere in superficie. Ha il potenziale per devastare la società e persino influenzare negativamente le imprese e altri stabilimenti.

Quanto è grande il problema?

Si dice che la proliferazione di notizie false abbia fatto pendere la bilancia a favore di Donald Trump nelle recenti elezioni presidenziali americane. Indipendentemente dalla verità sulle accuse, le notizie false possono indubbiamente avere un impatto malsano sull'opinione pubblica, punto. La diffusione di notizie false può creare sfiducia nella società, che è un lento veleno che può fungere da causa principale di molti altri mali sociali. Ad esempio, le fake news potrebbero promuovere la violenza collettiva e creare un'atmosfera inquietante nella vita delle persone.

Ci sono alcuni argomenti che possono essere facilmente materializzati come notizie false; abuso di potere, paura dell'alienazione, questioni di guerra e pace, ecc. possono facilmente diffondersi a macchia d'olio, causando danni irreparabili.

Ci sono stati casi di aziende che hanno condotto campagne diffamatorie per abbattere i loro concorrenti diffondendo false voci sull'azienda con l'obiettivo di garantire che l'azienda colpita perdesse clienti.

È stato di recente che un rifugiato siriano ha citato in giudizio Facebook dopo che sul social network sono state diffuse notizie false che lo collegavano al terrorismo. Facebook in seguito ha rimosso i post, ma il danno era già stato fatto.

Le piattaforme di scoperta dei contenuti e i siti di social media possono essere essi stessi in pericolo di azioni legali se tali problemi continuano a verificarsi. Ciò influenzerebbe anche la reputazione delle piattaforme di scoperta dei contenuti in cui tali notizie si diffondono, portando a un minore coinvolgimento degli utenti. Con tutte queste ripercussioni, le fake news sono un grosso problema che deve essere stroncato sul nascere.

L'IA può aiutare?

Rilevare e combattere le fake news è un'impresa impegnativa, su questo non c'è dubbio. Non è certamente una soluzione praticabile impiegare esseri umani per esaminare ogni post condiviso su piattaforme di scoperta dei contenuti per valutarne l'autenticità. Fortunatamente, non viviamo più in un'era in cui gli esseri umani hanno bisogno di fare tutto il duro lavoro.

L'intelligenza artificiale ha fatto molta strada dal concetto di fantascienza che era una volta. Ora abbiamo potenti algoritmi di riconoscimento vocale, di immagine e di pattern e la potenza di calcolo per eseguirli.

Combattere le fake news usando l'intelligenza artificiale e l'apprendimento automatico sarebbe la strada da percorrere considerando la profondità di questo problema. Per consentire alle macchine di rilevare le notizie false, dovremo prima identificare le caratteristiche comuni dei post di notizie false. Vediamo come questo può essere raggiunto.

Reputazione del sito web

La reputazione di un sito web è uno degli indicatori chiave che possono essere utilizzati per valutare l'autenticità di un articolo pubblicato su di esso. Google, il gigante dei motori di ricerca, fa un ottimo lavoro nel classificare le pagine web sulle loro SERP rispetto alla loro reputazione. Sebbene non saremo in grado di utilizzare l'algoritmo proprietario di Google per rilevare le notizie false, potremmo utilizzare i segnali di ranking di molti altri siti Web come il DA, il ranking di Alexa e l'età del dominio per classificare una pagina Web nel nostro sistema di rilevamento delle notizie false. È più probabile che i siti più vecchi con un ranking Alexa elevato siano fonti attendibili, mentre il contrario potrebbe indicare un sito Web superficiale.

Elaborazione del linguaggio naturale

L'elaborazione del linguaggio naturale, nella sua definizione più semplice, è la capacità di una macchina di comprendere veramente il linguaggio umano e di elaborarlo allo stesso modo di un essere umano. I motori NLP sono costruiti alimentando algoritmi di apprendimento automatico con corpora di testo. Per rilevare veramente le fake news, le macchine devono essere in grado di interpretare i linguaggi umani proprio come noi. Quando si tratta di rilevare notizie false, il motore NLP deve essere alimentato con enormi quantità di dati di testo che appartengono ad articoli autentici e falsi. Da lì, è possibile decifrare il codice delle notizie false, il che consentirà essenzialmente alle macchine di rilevare le notizie false con una discreta precisione. Ecco due cose che l'algoritmo può utilizzare per individuare i post di notizie false.

a) Coerenza interna

Gli articoli falsi o fuorvianti spesso presentano una grande incoerenza tra le diverse parti del post stesso; ad esempio titolo, corpo del testo, snippet ecc. Un sistema NLP può essere utilizzato per scansionare e valutare se i fatti rappresentati all'interno di un articolo sono coerenti o in conflitto.

b) Cerca parole sensazionali

Gli articoli eccessivamente sensazionali tendono spesso ad essere falsi. Un sistema di elaborazione del linguaggio naturale può essere utilizzato per definire l'aspetto sensazionale dell'articolo dall'uso di parole sensazionali nell'articolo di notizie.

Il ruolo del web scraping

Un motore di intelligenza artificiale in grado di rilevare notizie false richiederà ovviamente enormi quantità di dati che andrebbero nell'addestramento dell'algoritmo di apprendimento automatico. L'estrazione di dati dal Web non dovrebbe essere un problema considerando che esistono tecnologie avanzate che possono essere utilizzate per un efficiente web scraping. Tuttavia, poiché il rilevamento di notizie false è di per sé una sfida, si consiglia di utilizzare una soluzione DaaS (data as a service) come PromptCloud per acquisire i dati dai media (sia autentici che falsi). Poiché ci assumiamo la responsabilità end-to-end del processo di estrazione dei dati, puoi saltare le complessità associate allo scraping web e ottenere dati pronti per l'uso a un costo significativamente inferiore rispetto allo scraping interno.

Aggiunta di un livello manuale

Poiché una macchina identifica segnali e segnala i post che ritiene falsi, un piccolo strato umano può essere utilizzato per convalidare i risultati. Sarà facile ora che tutto il lavoro pesante è già stato fatto dal sistema di intelligenza artificiale. Con il livello manuale attivo, il sistema sarebbe abbastanza potente da rilevare notizie false con una precisione molto elevata. Per le piattaforme di scoperta dei contenuti e i siti di social media, avere la capacità di eliminare le notizie false si rivelerebbe essenziale per mantenere gli utenti coinvolti col passare del tempo e gli utenti perdono fiducia nelle notizie che si diffondono su tali piattaforme. Il potenziale dell'IA e dell'estrazione di dati web a questo proposito è immenso e dovrebbe essere utilizzato per combattere questo male al più presto.