Cum platformele de descoperire a conținutului pot lupta împotriva știrilor false prin web Scraping și AI

Publicat: 2017-06-20

Cuprins arată

Cât de mare este problema?

Poate AI ajuta?

Rolul web scraping

Adăugarea unui strat manual

S-au dus vremurile în care oamenii trebuiau să depindă de media tradițională pentru știri; acum sunt bombardați cu știri de un număr mare de instituții media online de pe internet. Atât de mult încât este o supraîncărcare de informații pentru o persoană obișnuită care are timp limitat pentru a ajunge la curent cu știri și povești. Rețelele sociale acționează acum ca un mediu pentru știri și chiar îmbunătățesc experiența utilizatorilor, personalizând feedul pentru a se potrivi cu obiceiurile lor de lectură. Cu toate acestea, această proliferare masivă a rețelelor sociale și a publicării web vine cu propriile sale dezavantaje.

Scraping web de date de știri false

Disponibilitatea pe scară largă a sistemelor de gestionare a conținutului ușor de utilizat, cum ar fi WordPress, a făcut mai ușor pentru oricine să fie editor web. Aceasta înseamnă că, literalmente, oricine poate scrie și publica orice – fără întrebări. Este adevărat că acest lucru a deschis o gamă largă de posibilități pentru rețelele de publicare de conținut și bloggeri. Cu toate acestea, așa cum este cazul tuturor lucrurilor puternice, disponibilitatea imediată a tehnologiei de publicare este folosită greșit de un grup mare pentru a răspândi știri false cu motive oribile. Știrile false sunt o problemă mai mare decât ceea ce pare a fi la suprafață. Are potențialul de a face ravagii în societate și chiar de a afecta negativ afacerile și alte unități.

Cât de mare este problema?

Se spune că proliferarea știrilor false a înclinat balanța în favoarea lui Donald Trump în recentele alegeri prezidențiale americane. Indiferent de adevărul despre acuzații, știrile false pot influența fără îndoială opinia în masă într-un mod nesănătos, punct. Răspândirea știrilor false poate crea neîncredere în societate, care este o otravă lentă care poate acționa ca cauza principală a multor alte rele sociale. De exemplu, știrile false ar putea promova violența comunală și ar putea crea o atmosferă tulburătoare în viața oamenilor.

Există anumite subiecte care pot fi materializate cu ușurință ca știri false; abuzul de putere, frica de alienare, problemele de război și pace etc. se pot răspândi cu ușurință ca focul de pădure, provocând daune ireparabile.

Au existat cazuri în care companii au desfășurat campanii de calomnie pentru a-și doborî concurenții prin răspândirea de zvonuri false despre companie cu un obiectiv care să se asigure că compania afectată va pierde clienți.

Recent, un refugiat sirian a dat în judecată Facebook după știri false care îl leagă de terorism răspândite pe rețeaua de socializare. Facebook a eliminat ulterior postările, dar pagubele erau deja făcute.

Platformele de descoperire de conținut și site-urile de rețele sociale pot fi ele însele în pericol de procese în cazul în care astfel de probleme continuă să apară. Acest lucru ar afecta, de asemenea, reputația platformelor de descoperire a conținutului pe care se răspândesc astfel de știri, ceea ce duce la scăderea implicării utilizatorilor. Cu toate aceste repercusiuni, știrile false sunt o problemă uriașă care trebuie eliminată din răsputeri.

Poate AI ajuta?

Detectarea și combaterea știrilor false este o activitate dificilă, fără îndoială. Cu siguranță nu este o soluție viabilă să angajezi oameni pentru a parcurge fiecare postare partajată pe platformele de descoperire a conținutului pentru a le evalua autenticitatea. Din fericire, nu mai trăim într-o eră în care oamenii trebuie să facă toată munca grea.

Inteligența artificială a parcurs un drum lung față de conceptul science fiction care a fost cândva. Acum avem algoritmi puternici de recunoaștere a vocii, imaginilor și modelelor și puterea de calcul pentru a le rula.

Combaterea știrilor false folosind inteligența artificială și învățarea automată ar fi calea de urmat, având în vedere profunzimea acestei probleme. Pentru a permite mașinilor să detecteze știri false, mai întâi va trebui să identificăm caracteristicile comune ale postărilor de știri false. Să vedem cum se poate realiza acest lucru.

Reputația site-ului

Reputația unui site web este unul dintre indicatorii cheie care pot fi folosite pentru a evalua autenticitatea unui articol publicat pe acesta. Google, gigantul motoarelor de căutare face o treabă grozavă în clasarea paginilor web pe SERP-urile lor în ceea ce privește reputația lor. Deși nu vom putea folosi algoritmul proprietar Google pentru a detecta știrile false, am putea folosi semnalele de clasare ale multor alte site-uri web, cum ar fi DA, clasarea Alexa și vârsta domeniului, pentru a clasifica o pagină web în propriul nostru sistem de detectare a știrilor false. Site-urile mai vechi cu un rang Alexa ridicat sunt mai susceptibile de a fi surse de încredere, în timp ce inversul poate indica un site web superficial.

Procesarea limbajului natural

Procesarea limbajului natural, în cea mai simplă definiție, este capacitatea unei mașini de a înțelege cu adevărat limbajul uman și de a-l procesa în același mod ca un om. Motoarele NLP sunt construite prin alimentarea algoritmilor de învățare automată cu corpuri de text. Pentru a detecta cu adevărat știrile false, mașinile trebuie să fie capabile să interpreteze limbajele umane la fel ca noi. Când vine vorba de detectarea știrilor false, motorul NLP trebuie alimentat cu cantități uriașe de date text care aparțin articolelor autentice, precum și celor false. De acolo, codul de știri false poate fi spart, ceea ce va permite în esență mașinilor să detecteze știrile false cu o acuratețe decentă. Iată două lucruri pe care algoritmul le poate folosi pentru a identifica postările de știri false.

a) Consecvența internă

Articolele false sau înșelătoare au adesea o mare inconsecvență între diferitele părți ale postării în sine; spuneți titlul, corpul textului, fragmentul etc. Un sistem NLP poate fi utilizat pentru a scana și a evalua dacă faptele reprezentate într-un articol sunt consecvente sau conflictuale.

b) Căutați cuvinte senzaționale

Articolele prea senzaționale tind adesea să fie false. Un sistem de procesare a limbajului natural poate fi utilizat pentru a defini aspectul senzațional al articolului din utilizarea cuvintelor senzaționale în articolul de știri.

Rolul web scraping

Un motor de inteligență artificială care poate detecta știri false va necesita, evident, cantități uriașe de date care ar intra în antrenamentul algoritmului de învățare automată. Extragerea datelor de pe web nu ar trebui să fie o problemă, având în vedere că există tehnologii avansate care pot fi utilizate pentru scraping web eficient. Cu toate acestea, deoarece detectarea știrilor false este o provocare în sine, este recomandat să utilizați o soluție de date ca serviciu (DaaS), cum ar fi PromptCloud, pentru a achiziționa datele de la instituțiile media (atât autentice, cât și false). Deoarece ne asumăm responsabilitatea de la capăt la capăt a procesului de extragere a datelor, puteți sări peste complexitățile asociate cu web scraping și să obțineți date gata de utilizare la un cost semnificativ mai mic în comparație cu scrapingul intern.

Adăugarea unui strat manual

Pe măsură ce o mașină identifică indicii și semnalează postările pe care le consideră false, un mic strat uman poate fi folosit pentru a valida descoperirile. Acest lucru va fi ușor acum că toate sarcinile grele au fost deja făcute de sistemul AI. Cu stratul manual instalat, sistemul ar fi suficient de puternic pentru a detecta știrile false cu o precizie foarte mare. Pentru platformele de descoperire de conținut și site-urile de social media, capacitatea de a elimina știrile false s-ar dovedi esențială pentru a menține utilizatorii implicați pe măsură ce trece timpul, iar utilizatorii își pierd încrederea în știrile care se răspândesc pe astfel de platforme. Potențialul extragerii de date AI și web în acest sens este imens și ar trebui utilizat pentru a combate acest rău cel mai devreme.