Как платформы для обнаружения контента могут бороться с фейковыми новостями с помощью веб-скрапинга и искусственного интеллекта

Опубликовано: 2017-06-20

Оглавление показать

Насколько велика проблема?

Может ли помочь ИИ?

Роль веб-скрапинга

Добавление слоя вручную

Прошли те времена, когда людям приходилось полагаться на традиционные средства массовой информации для получения новостей; теперь их засыпает новостями огромное количество онлайн-СМИ в Интернете. Настолько, что это информационная перегрузка для обычного человека, который имеет ограниченное время, чтобы наверстать упущенное в новостях и историях. Социальные сети теперь действуют как среда для новостей и даже улучшают работу пользователей, настраивая ленту в соответствии с их привычками чтения. Однако такое массовое распространение социальных сетей и веб-публикаций имеет свои недостатки.

Веб-скрапинг данных о поддельных новостях

Широкая доступность простых в использовании систем управления контентом, таких как WordPress, упростила для любого человека возможность стать веб-издателем. Это означает, что буквально каждый может писать и публиковать что угодно — без лишних вопросов. Это правда, что это открыло широкий спектр возможностей для сетей публикации контента и блоггеров. Однако, как и в случае со всеми мощными вещами, доступность издательских технологий используется большой группой для распространения фальшивых новостей с отвратительными мотивами. Фейковые новости — большая проблема, чем кажется на первый взгляд. Он может нанести ущерб обществу и даже негативно повлиять на бизнес и другие учреждения.

Насколько велика проблема?

Говорят, что распространение фейковых новостей склонило чашу весов в пользу Дональда Трампа на недавних президентских выборах в США. Независимо от правдивости обвинений, фейковые новости, несомненно, могут нездоровым образом повлиять на массовое мнение, и точка. Распространение фейковых новостей может вызвать недоверие в обществе, что является медленным ядом, который может стать первопричиной многих других социальных зол. Например, фейковые новости могут способствовать насилию в общине и создавать тревожную атмосферу в жизни людей.

Есть определенные темы, которые легко материализовать как фейковые новости; злоупотребление властью, боязнь отчуждения, вопросы войны и мира и т. д. могут легко распространяться как лесной пожар, нанося непоправимый ущерб.

Были случаи, когда предприятия проводили клеветнические кампании, чтобы сбить своих конкурентов, распространяя ложные слухи о компании с целью гарантировать, что пострадавшая компания потеряет клиентов.

Совсем недавно сирийский беженец подал в суд на Facebook после того, как в социальной сети распространились фейковые новости, связывающие его с терроризмом. Позже Facebook удалил посты, но ущерб уже был нанесен.

Платформы для поиска контента и сайты социальных сетей сами могут оказаться под угрозой судебных исков, если такие проблемы будут продолжаться. Это также повлияет на репутацию платформ для поиска контента, на которых распространяются такие новости, что приведет к снижению вовлеченности пользователей. Со всеми этими последствиями фейковые новости — это огромная проблема, которую необходимо пресечь в зародыше.

Может ли помочь ИИ?

Обнаружение фейковых новостей и борьба с ними, без сомнения, является сложной задачей. Конечно, нанимать людей для проверки каждой публикации на платформах обнаружения контента для оценки их подлинности — нежизнеспособное решение. К счастью, мы больше не живем в эпоху, когда люди должны выполнять всю тяжелую работу.

Искусственный интеллект прошел долгий путь от концепции научной фантастики, которой он когда-то был. Теперь у нас есть мощные алгоритмы распознавания голоса, изображений и образов, а также вычислительная мощность для их запуска.

Борьба с фейковыми новостями с использованием искусственного интеллекта и машинного обучения была бы правильным решением, учитывая глубину этой проблемы. Чтобы машины могли обнаруживать фейковые новости, нам сначала нужно определить общие характеристики сообщений с фейковыми новостями. Давайте посмотрим, как этого можно достичь.

Репутация сайта

Репутация веб-сайта является одним из ключевых показателей, по которым можно оценить подлинность опубликованной на нем статьи. Google, гигант поисковых систем, отлично справляется с ранжированием веб-страниц в своей поисковой выдаче с учетом их репутации. Хотя мы не сможем использовать собственный алгоритм Google для обнаружения фальшивых новостей, мы можем использовать сигналы ранжирования многих других веб-сайтов, такие как DA, рейтинг Alexa и возраст домена, для ранжирования веб-страницы в нашей собственной системе обнаружения фальшивых новостей. Старые сайты с высоким рейтингом Alexa, скорее всего, будут надежными источниками, в то время как обратное может указывать на неглубокий сайт.

Обработка естественного языка

Обработка естественного языка, в самом простом определении, — это способность машины по-настоящему понимать человеческий язык и обрабатывать его так же, как это делает человек. Механизмы НЛП создаются путем подачи в алгоритмы машинного обучения текстовых корпусов. Чтобы действительно обнаруживать фальшивые новости, машины должны уметь интерпретировать человеческие языки так же, как и мы. Когда дело доходит до обнаружения фальшивых новостей, механизм НЛП должен получать огромные объемы текстовых данных, которые принадлежат как подлинным, так и фейковым статьям. Оттуда можно взломать код фальшивых новостей, что, по сути, позволит машинам обнаруживать фальшивые новости с достаточной точностью. Вот две вещи, которые алгоритм может использовать для обнаружения поддельных новостных сообщений.

а) Внутренняя согласованность

Поддельные или вводящие в заблуждение статьи часто имеют большое количество несоответствий между различными частями самой публикации; скажем, заголовок, основной текст, фрагмент и т. д. Систему НЛП можно использовать для сканирования и оценки того, согласуются ли факты, представленные в статье, или они противоречат друг другу.

б) Ищите сенсационные слова

Чрезмерно сенсационные статьи часто оказываются фейковыми. Система обработки естественного языка может использоваться для определения сенсационного аспекта статьи на основе использования сенсационных слов в новостной статье.

Роль веб-скрапинга

Механизм искусственного интеллекта, который может обнаруживать фейковые новости, очевидно, потребует огромных объемов данных, которые пойдут на обучение алгоритма машинного обучения. Извлечение данных из Интернета не должно быть проблемой, учитывая, что существуют передовые технологии, которые можно использовать для эффективного парсинга веб-страниц. Однако, поскольку обнаружение поддельных новостей само по себе является сложной задачей, рекомендуется использовать решение «данные как услуга» (DaaS), такое как PromptCloud , для получения данных из СМИ (как подлинных, так и поддельных). Поскольку мы берем на себя полную ответственность за процесс извлечения данных, вы можете избежать сложностей, связанных с парсингом веб-страниц, и получить готовые к использованию данные по значительно более низкой цене по сравнению с парсингом внутри компании.

Добавление слоя вручную

Поскольку машина идентифицирует сигналы и помечает сообщения, которые она считает фальшивыми, для проверки результатов можно использовать небольшой человеческий слой. Это будет легко теперь, когда вся тяжелая работа уже сделана системой ИИ. При наличии ручного уровня система будет достаточно мощной, чтобы обнаруживать фальшивые новости с очень высокой точностью. Для платформ обнаружения контента и сайтов социальных сетей возможность отсеивать фальшивые новости будет иметь важное значение, чтобы поддерживать интерес пользователей с течением времени, и пользователи теряют доверие к новостям, распространяемым на таких платформах. Потенциал искусственного интеллекта и извлечения веб-данных в этом отношении огромен, и его следует использовать для борьбы с этим злом как можно скорее.