Content Discovery 플랫폼이 웹 스크래핑 및 AI를 통해 가짜 뉴스와 싸울 수 있는 방법

게시 됨: 2017-06-20

목차 쇼

얼마나 큰 문제입니까?

AI가 도움이 될까요?

웹 스크래핑의 역할

수동 레이어 추가

사람들이 뉴스를 위해 전통적인 미디어에 의존해야 했던 시대는 지났습니다. 이제 그들은 인터넷에서 수많은 온라인 미디어 매체에 의해 뉴스의 폭격을 받고 있습니다. 뉴스와 이야기를 따라잡는 데 시간이 제한된 보통 사람에게는 정보 과부하입니다. 소셜 미디어는 이제 뉴스의 매개체 역할을 하며 사용자의 독서 습관에 맞게 피드를 사용자 지정하여 사용자 경험을 개선합니다. 그러나 소셜 미디어와 웹 퍼블리싱의 이러한 대규모 확산에는 단점도 있습니다.

가짜 뉴스 데이터 웹 스크래핑

WordPress와 같이 사용하기 쉬운 콘텐츠 관리 시스템이 널리 보급되면서 누구나 웹 게시자가 되기가 더 쉬워졌습니다. 이것은 말 그대로 누구나 질문을 하지 않고 무엇이든 작성하고 게시할 수 있음을 의미합니다. 이것이 콘텐츠 출판 네트워크와 블로거에게 광범위한 가능성을 열어준 것은 사실입니다. 그러나 모든 강력한 것이 그렇듯이 출판 기술의 준비된 가용성은 끔찍한 동기로 가짜 뉴스를 퍼뜨리기 위해 큰 그룹에 의해 오용되고 있습니다. 가짜 뉴스는 겉으로 보이는 것보다 더 큰 문제입니다. 사회에 혼란을 일으키고 기업 및 기타 시설에 부정적인 영향을 미칠 가능성이 있습니다.

얼마나 큰 문제입니까?

가짜 뉴스의 확산은 최근 미국 대통령 선거에서 도널드 트럼프에게 유리하게 스케일을 기울였다고 한다. 주장에 대한 진실과 상관없이 가짜 뉴스는 의심할 여지 없이 대중의 여론에 건강에 해로운 영향을 미칠 수 있습니다. 가짜 뉴스의 확산은 사회에 대한 불신을 유발할 수 있으며, 이는 다른 많은 사회악의 근본 원인으로 작용할 수 있는 느린 독입니다. 예를 들어, 가짜 뉴스는 집단 폭력을 조장하고 사람들의 삶에 불안한 분위기를 조성할 수 있습니다.

가짜 뉴스로 쉽게 구체화될 수 있는 특정 주제가 있습니다. 권력 남용, 소외에 대한 두려움, 전쟁과 평화에 대한 문제 등은 들불처럼 쉽게 퍼져 돌이킬 수 없는 피해를 입힐 수 있습니다.

기업이 고객을 잃게 만들려는 목적으로 기업에 대한 거짓 소문을 퍼뜨려 경쟁자를 비방하는 캠페인을 벌인 사례가 있습니다.

시리아 난민 이 자신을 테러리즘과 연결시키는 가짜 뉴스가 소셜 네트워크에 퍼진 후 Facebook을 고소한 것은 아주 최근의 일입니다 . 페이스북은 이후 해당 게시물을 삭제했지만 이미 피해를 입었다.

이러한 문제가 계속 발생하면 콘텐츠 검색 플랫폼과 소셜 미디어 사이트 자체가 소송의 위험에 처할 수 있습니다. 이는 또한 그러한 뉴스가 확산되는 콘텐츠 검색 플랫폼의 평판에 영향을 미쳐 사용자 참여를 감소시킵니다. 이 모든 영향과 함께 가짜 뉴스는 싹을 틔워야 하는 큰 문제입니다.

AI가 도움이 될까요?

가짜 뉴스를 탐지하고 퇴치하는 것은 의심할 여지 없이 어려운 일입니다. 콘텐츠 검색 플랫폼에서 공유되는 모든 게시물의 진위 여부를 평가하기 위해 사람을 고용하는 것은 확실히 실행 가능한 솔루션이 아닙니다. 다행스럽게도 우리는 더 이상 인간이 모든 힘든 일을 해야 하는 시대에 살고 있지 않습니다.

인공 지능은 과거의 공상 과학 개념에서 먼 길을 왔습니다. 우리는 이제 강력한 음성, 이미지 및 패턴 인식 알고리즘과 이를 실행할 컴퓨팅 능력을 갖게 되었습니다.

인공 지능과 머신 러닝을 사용하여 가짜 뉴스를 퇴치하는 것이 이 문제의 깊이를 고려하는 방법이 될 것입니다. 기계가 가짜 뉴스를 감지할 수 있게 하려면 먼저 가짜 뉴스 게시물의 일반적인 특성을 식별해야 합니다. 이것이 어떻게 달성될 수 있는지 봅시다.

웹사이트 평판

웹사이트의 평판은 해당 웹사이트에 게시된 기사의 신뢰성을 평가하는 데 사용할 수 있는 주요 지표 중 하나입니다. 검색 엔진의 거인인 Google은 평판과 관련하여 SERP에서 웹 페이지의 순위를 매기는 데 큰 역할을 합니다. 가짜 뉴스를 탐지하기 위해 Google의 독점 알고리즘을 사용할 수는 없지만 DA, Alexa 순위 및 도메인 연령과 같은 다른 많은 웹사이트의 순위 신호를 사용하여 자체 가짜 뉴스 탐지 시스템에서 웹페이지의 순위를 지정할 수 있습니다. Alexa 순위가 높은 오래된 사이트는 신뢰할 수 있는 소스일 가능성이 높으며 그 반대는 얕은 웹 사이트를 나타낼 수 있습니다.

자연어 처리

자연어 처리는 가장 간단한 정의에서 기계가 인간의 언어를 진정으로 이해하고 인간과 동일한 방식으로 처리하는 능력입니다. NLP 엔진은 기계 학습 알고리즘에 텍스트 말뭉치를 제공하여 구축됩니다. 가짜 뉴스를 진정으로 감지하려면 기계가 우리처럼 인간의 언어를 해석할 수 있어야 합니다. 가짜 뉴스 탐지와 관련하여 NLP 엔진에는 가짜 기사뿐만 아니라 진짜 기사에도 속하는 엄청난 양의 텍스트 데이터가 공급되어야 합니다. 거기에서 가짜 뉴스 코드를 해독할 수 있어 본질적으로 기계가 적절한 정확도로 가짜 뉴스를 감지할 수 있습니다. 다음은 알고리즘이 가짜 뉴스 게시물을 식별하는 데 사용할 수 있는 두 가지입니다.

a) 내적 일관성

가짜 또는 오해의 소지가 있는 기사는 종종 게시물 자체의 다른 부분 간에 상당한 불일치가 있습니다. 제목, 본문, 스니펫 등을 말하십시오. NLP 시스템을 사용하여 기사 내에서 표현된 사실이 전체적으로 일관성이 있는지 또는 상충되는지를 스캔하고 평가할 수 있습니다.

b) 선정적인 단어 찾기

지나치게 선정적인 기사는 종종 가짜 경향이 있습니다. 자연어 처리 시스템을 사용하여 뉴스 기사에서 선정적인 단어를 사용하여 기사의 선정적인 측면을 정의할 수 있습니다.

웹 스크래핑의 역할

가짜 뉴스를 탐지할 수 있는 인공 지능 엔진은 분명히 기계 학습 알고리즘의 훈련에 들어갈 엄청난 양의 데이터를 필요로 할 것입니다. 효율적인 웹 스크래핑에 사용할 수 있는 고급 기술이 있으므로 웹에서 데이터를 추출하는 것은 문제가 되지 않습니다. 그러나 가짜 뉴스를 감지하는 것 자체가 어려운 일이므로 PromptCloud 와 같은 DaaS(Data as a Service) 솔루션을 사용 하여 미디어(진품 및 가짜)에서 데이터를 수집하는 것이 좋습니다. 당사는 데이터 추출 프로세스에 대한 엔드 투 엔드 책임을 지기 때문에 웹 스크래핑과 관련된 복잡성을 건너뛸 수 있으며 사내 스크래핑에 비해 훨씬 저렴한 비용으로 바로 사용할 수 있는 데이터를 얻을 수 있습니다.

수동 레이어 추가

기계가 가짜라고 생각하는 게시물을 식별하고 플래그를 지정하면 작은 인간 계층을 사용하여 결과를 검증할 수 있습니다. 모든 무거운 작업이 이미 AI 시스템에 의해 수행되었으므로 이것은 쉬울 것입니다. 수동 레이어가 있으면 시스템은 매우 높은 정확도로 가짜 뉴스를 감지할 수 있을 만큼 강력합니다. 콘텐츠 검색 플랫폼 및 소셜 미디어 사이트의 경우 가짜 뉴스를 제거하는 기능은 시간이 지남에 따라 사용자의 참여를 유지하는 데 필수적이며 사용자는 이러한 플랫폼에서 퍼지는 뉴스에 대한 신뢰를 잃게 됩니다. 이와 관련하여 AI 및 웹 데이터 추출의 잠재력은 엄청나며 이 악을 조기에 퇴치하기 위해 활용되어야 합니다.