Como as plataformas de descoberta de conteúdo podem combater notícias falsas via Web Scraping e IA

Publicados: 2017-06-20

Índice mostrar

Quão grande é o problema?

A IA pode ajudar?

O papel do web scraping

Adicionando uma camada manual

Foi-se o tempo em que as pessoas dependiam da mídia tradicional para obter notícias; agora eles são bombardeados com notícias por um grande número de meios de comunicação online na internet. Tanto que é uma sobrecarga de informações para a pessoa comum que tem tempo limitado para acompanhar as notícias e histórias. A mídia social agora funciona como um meio de notícias e ainda melhora a experiência para os usuários, personalizando o feed de acordo com seus hábitos de leitura. No entanto, essa proliferação massiva de mídia social e publicação na web vem com suas próprias desvantagens.

Raspagem da web de dados de notícias falsas

A ampla disponibilidade de sistemas de gerenciamento de conteúdo fáceis de usar, como o WordPress, tornou mais fácil para qualquer um ser um editor da web. Isso significa que literalmente qualquer pessoa pode escrever e publicar qualquer coisa – sem perguntas. É verdade que isso abriu um amplo leque de possibilidades para redes de publicação de conteúdo e blogueiros. No entanto, como acontece com todas as coisas poderosas, a disponibilidade imediata da tecnologia de publicação está sendo mal utilizada por um grande grupo para espalhar notícias falsas com motivos hediondos. As notícias falsas são um problema maior do que parece ser na superfície. Tem o potencial de causar estragos na sociedade e até mesmo afetar negativamente as empresas e outros estabelecimentos.

Quão grande é o problema?

Diz-se que a proliferação de notícias falsas inclinou a balança a favor de Donald Trump na recente eleição presidencial americana. Independentemente da verdade sobre as alegações, as notícias falsas podem, sem dúvida, impactar a opinião das massas de maneira insalubre, ponto final. A disseminação de notícias falsas pode criar desconfiança na sociedade, que é um veneno lento que pode atuar como a causa raiz de muitos outros males sociais. Por exemplo, notícias falsas podem promover a violência comunitária e criar uma atmosfera inquietante na vida das pessoas.

Existem certos tópicos que podem ser facilmente materializados como notícias falsas; abuso de poder, medo de alienação, questões de guerra e paz, etc. podem facilmente se espalhar como um incêndio, causando danos irreparáveis.

Houve casos de empresas executando campanhas de difamação para derrubar seus concorrentes, espalhando rumores falsos sobre a empresa com o objetivo de garantir que a empresa afetada perdesse clientes.

Foi bem recentemente que um refugiado sírio processou o Facebook depois que notícias falsas o ligando ao terrorismo se espalharam na rede social. Mais tarde, o Facebook derrubou as postagens, mas o estrago já estava feito.

Plataformas de descoberta de conteúdo e sites de mídia social podem correr o risco de processos judiciais se esses problemas continuarem acontecendo. Isso também afetaria a reputação das plataformas de descoberta de conteúdo onde essas notícias se espalham, levando à diminuição do engajamento do usuário. Com todas essas repercussões, as notícias falsas são um problema enorme que precisa ser cortado pela raiz.

A IA pode ajudar?

Detectar e combater notícias falsas é uma tarefa desafiadora, sem dúvida. Certamente não é uma solução viável empregar humanos para passar por todas as postagens compartilhadas em plataformas de descoberta de conteúdo para avaliar sua autenticidade. Felizmente, não estamos mais vivendo em uma era em que os humanos precisam fazer todo o trabalho duro.

A inteligência artificial percorreu um longo caminho desde o conceito de ficção científica que costumava ser. Agora temos algoritmos poderosos de reconhecimento de voz, imagem e padrão e o poder de computação para executá-los.

Combater notícias falsas usando inteligência artificial e aprendizado de máquina seria o caminho a seguir considerando a profundidade desse problema. Para permitir que as máquinas detectem notícias falsas, primeiro teremos que identificar características comuns das postagens de notícias falsas. Vamos ver como isso pode ser alcançado.

Reputação do site

A reputação de um site é um dos principais indicadores que podem ser usados para avaliar a autenticidade de um artigo publicado nele. O Google, o gigante dos mecanismos de busca, faz um ótimo trabalho ao classificar as páginas da Web em seus SERPs em relação à sua reputação. Embora não possamos usar o algoritmo proprietário do Google para detectar notícias falsas, poderíamos usar sinais de classificação de muitos outros sites, como DA, classificação Alexa e idade do domínio para classificar uma página da Web em nosso próprio sistema de detecção de notícias falsas. Sites mais antigos com uma alta classificação Alexa são mais propensos a serem fontes confiáveis, enquanto o inverso pode indicar um site superficial.

Processamento de linguagem natural

Processamento de linguagem natural, em sua definição mais simples, é a capacidade de uma máquina de realmente entender a linguagem humana e processá-la da mesma maneira que um humano. Os mecanismos de PNL são construídos alimentando algoritmos de aprendizado de máquina com corpora de texto. Para realmente detectar notícias falsas, as máquinas devem ser capazes de interpretar as linguagens humanas, assim como nós. Quando se trata de detecção de notícias falsas, o mecanismo de PNL deve ser alimentado com grandes quantidades de dados de texto que pertencem a artigos genuínos e falsos. A partir daí, o código de notícias falsas pode ser decifrado, o que essencialmente permitirá que as máquinas detectem notícias falsas com precisão decente. Aqui estão duas coisas que o algoritmo pode usar para identificar as postagens de notícias falsas.

a) Consistência interna

Artigos falsos ou enganosos geralmente têm muita inconsistência entre as diferentes partes do próprio post; diga título, corpo do texto, trecho etc. Um sistema de PNL pode ser usado para escanear e avaliar se os fatos representados em um artigo são consistentes ou conflitantes.

b) Procure palavras sensacionais

Artigos excessivamente sensacionalistas geralmente tendem a ser falsos. Um sistema de processamento de linguagem natural pode ser usado para definir o aspecto sensacional do artigo a partir do uso de palavras sensacionais na notícia.

O papel do web scraping

Um mecanismo de inteligência artificial capaz de detectar notícias falsas obviamente exigirá enormes quantidades de dados que seriam usados no treinamento do algoritmo de aprendizado de máquina. Extrair dados da web não deve ser um problema, considerando que existem tecnologias avançadas que podem ser usadas para raspagem eficiente da web. No entanto, como detectar notícias falsas é um desafio em si, é recomendável usar uma solução de dados como serviço (DaaS) como o PromptCloud para adquirir os dados dos meios de comunicação (genuínos e falsos). Como assumimos a responsabilidade de ponta a ponta do processo de extração de dados, você pode ignorar as complexidades associadas ao web scraping e obter dados prontos para uso a um custo significativamente menor em comparação com o scraping interno.

Adicionando uma camada manual

À medida que uma máquina identifica pistas e sinaliza as postagens que considera falsas, uma pequena camada humana pode ser usada para validar as descobertas. Isso será fácil agora que todo o trabalho pesado já foi feito pelo sistema de IA. Com a camada manual instalada, o sistema seria poderoso o suficiente para detectar notícias falsas com altíssima precisão. Para plataformas de descoberta de conteúdo e sites de mídia social, ter a capacidade de eliminar notícias falsas seria essencial para manter os usuários engajados à medida que o tempo passa e os usuários perdem a confiança nas notícias que se espalham nessas plataformas. O potencial da extração de dados da IA e da Web nesse sentido é imenso e deve ser utilizado para combater esse mal o mais rápido possível.