內容髮現平台如何通過網絡抓取和人工智能打擊假新聞

已發表: 2017-06-20

目錄顯示

問題有多大？

人工智能可以提供幫助嗎？

網頁抓取的作用

添加手動圖層

人們不得不依靠傳統媒體獲取新聞的日子已經一去不復返了；現在，互聯網上的大量在線媒體對他們進行了新聞轟炸。如此之多，以至於對於時間有限的普通人來說，這是一種信息過載，無法趕上新聞和故事。社交媒體現在充當新聞的媒介，它甚至可以通過自定義提要來適應用戶的閱讀習慣，從而為用戶帶來更好的體驗。然而，社交媒體和網絡出版的這種大規模擴散也有其自身的缺點。

假新聞數據網頁抓取

易於使用的內容管理系統（如 WordPress）的廣泛使用使任何人都更容易成為網絡發布者。這意味著，從字面上看，任何人都可以編寫和發布任何內容——無需提出任何問題。確實，這為內容髮佈網絡和博主開闢了廣泛的可能性。然而，與所有強大的事物一樣，出版技術的現成可用性正被一大群人濫用以傳播具有可怕動機的假新聞。假新聞比表面上看起來的問題更大。它有可能對社會造成嚴重破壞，甚至對企業和其他機構產生負面影響。

問題有多大？

據說，在最近的美國總統大選中，假新聞的氾濫使天平有利於唐納德·特朗普。不管這些指控的真相如何，假新聞無疑會以一種不健康的方式影響大眾輿論。假新聞的傳播會造成社會不信任，這是一種緩慢的毒藥，可以成為許多其他社會弊端的根源。例如，假新聞可能會助長社區暴力，並在人們的生活中營造令人不安的氛圍。

某些主題很容易被物化為假新聞；濫用權力、害怕疏遠、戰爭與和平問題等很容易像野火一樣蔓延開來，造成無法彌補的損失。

有一些企業通過散佈有關該公司的虛假謠言以確保受影響的公司會失去客戶來進行誹謗活動以使競爭對手失望。

就在最近，一名敘利亞難民在社交網絡上傳播將他與恐怖主義聯繫起來的虛假新聞報導後起訴 Facebook 。 Facebook後來撤下了這些帖子，但損害已經造成。

如果此類問題不斷發生，內容髮現平台和社交媒體網站本身可能會面臨訴訟的危險。這也會影響此類新聞傳播的內容髮現平台的聲譽，從而導致用戶參與度下降。鑑於所有這些影響，假新聞是一個需要被扼殺在萌芽狀態的巨大問題。

人工智能可以提供幫助嗎？

毫無疑問，檢測和打擊假新聞是一項具有挑戰性的工作。僱用人類檢查在內容髮現平台上共享的每個帖子以評估其真實性肯定不是一個可行的解決方案。令人高興的是，我們不再生活在一個人類需要努力工作的時代。

與曾經的科幻概念相比，人工智能已經有了很長的路要走。我們現在擁有強大的語音、圖像和模式識別算法以及運行它們的計算能力。

考慮到這個問題的深度，使用人工智能和機器學習來打擊假新聞將是一種方法。為了使機器能夠檢測假新聞，我們首先必須識別假新聞帖子的共同特徵。讓我們看看如何實現這一點。

網站聲譽

網站的聲譽是可用於評估在其上發表的文章的真實性的關鍵指標之一。搜索引擎巨頭谷歌在其 SERP 上的網頁排名方面做得很好。雖然我們無法使用 Google 的專有算法來檢測假新聞，但我們可以使用許多其他網站的排名信號，例如 DA、Alexa 排名和域年齡，在我們自己的假新聞檢測系統中對網頁進行排名。具有較高 Alexa 排名的舊網站更有可能是受信任的來源，而反之則可能表明網站較淺。

自然語言處理

自然語言處理，最簡單的定義是機器真正理解人類語言並以與人類相同的方式處理它的能力。 NLP 引擎是通過向機器學習算法提供文本語料庫來構建的。要真正檢測假新聞，機器必須能夠像我們一樣解釋人類語言。當涉及到假新聞檢測時， NLP引擎必須輸入大量的文本數據，這些文本數據既屬於真文章，也屬於假文章。從那裡，假新聞代碼可以被破解，這將使機器能夠以相當的準確度檢測假新聞。以下是算法可以用來發現假新聞帖子的兩件事。

a)內部一致性

虛假或誤導性文章通常在帖子本身的不同部分之間存在很大的不一致；比如標題、正文、片段等。NLP 系統可用於掃描和評估文章中表示的事實是否貫穿始終或相互衝突。

b)尋找聳人聽聞的詞語

過於聳人聽聞的文章往往是假的。自然語言處理系統可用於根據新聞文章中聳人聽聞的詞的使用來定義文章的聳人聽聞的方面。

網頁抓取的作用

可以檢測假新聞的人工智能引擎顯然需要大量數據，這些數據將用於機器學習算法的訓練。考慮到有先進的技術可用於高效的網絡抓取，從網絡中提取數據應該不是問題。但是，由於檢測假新聞本身就是一項挑戰，因此建議使用像PromptCloud這樣的數據即服務 (DaaS) 解決方案從媒體渠道（真假）獲取數據。由於我們對數據提取過程負有端到端的責任，因此您可以跳過與網絡抓取相關的複雜性，並以比內部抓取低得多的成本獲得現成的數據。

添加手動圖層

當機器識別線索並標記它認為是假的帖子時，可以使用一個小的人工層來驗證發現。既然人工智能係統已經完成了所有繁重的工作，這將很容易。有了手動層，系統將足夠強大，可以非常準確地檢測假新聞。對於內容髮現平台和社交媒體網站，隨著時間的推移，能夠清除假新聞對於保持用戶的參與度以及用戶對在此類平台上傳播的新聞失去信任至關重要。人工智能和網絡數據提取在這方面的潛力是巨大的，應該儘早用來對抗這種邪惡。