Cómo las plataformas de descubrimiento de contenido pueden combatir las noticias falsas a través del raspado web y la IA

Publicado: 2017-06-20
Mostrar tabla de contenido
que tan grande es el problema?
¿Puede la IA ayudar?
El papel del web scraping
Agregar una capa manual

Atrás quedaron los días en que la gente tenía que depender de los medios tradicionales para obtener noticias; ahora son bombardeados con noticias por una gran cantidad de medios de comunicación en línea en Internet. Tanto que es una sobrecarga de información para la persona promedio que tiene tiempo limitado para ponerse al día con las noticias y las historias. Las redes sociales ahora actúan como un medio para las noticias e incluso mejoran la experiencia de los usuarios al personalizar el feed para que se adapte a sus hábitos de lectura. Sin embargo, esta proliferación masiva de las redes sociales y la publicación web tiene sus propias desventajas.

Web scraping de datos de noticias falsas

La disponibilidad generalizada de sistemas de administración de contenido fáciles de usar, como WordPress, ha hecho que sea más fácil para cualquiera ser un editor web. Esto significa que, literalmente, cualquiera puede escribir y publicar cualquier cosa, sin hacer preguntas. Es cierto que esto ha abierto un amplio abanico de posibilidades para las redes de publicación de contenidos y los blogueros. Sin embargo, como es el caso con todas las cosas poderosas, la disponibilidad inmediata de la tecnología de publicación está siendo mal utilizada por un gran grupo para difundir noticias falsas con motivos horribles. Las noticias falsas son un problema mayor de lo que parece ser en la superficie. Tiene el potencial de causar estragos en la sociedad e incluso afectar negativamente a las empresas y otros establecimientos.

que tan grande es el problema?

Se dice que la proliferación de noticias falsas inclinó la balanza a favor de Donald Trump en las recientes elecciones presidenciales estadounidenses. Independientemente de la verdad sobre las acusaciones, las noticias falsas sin duda pueden impactar en la opinión pública de una manera poco saludable, y punto. La difusión de noticias falsas puede crear desconfianza en la sociedad, lo cual es un veneno lento que puede actuar como la raíz de muchos otros males sociales. Por ejemplo, las noticias falsas podrían promover la violencia comunitaria y crear una atmósfera inquietante en la vida de las personas.

Hay ciertos temas que fácilmente pueden materializarse como noticias falsas; El abuso de poder, el miedo a la alienación, las cuestiones de la guerra y la paz, etc. pueden extenderse fácilmente como la pólvora, causando daños irreparables.

Ha habido casos de empresas que realizan campañas de difamación para derribar a sus competidores mediante la difusión de rumores falsos sobre la empresa con el objetivo de garantizar que la empresa afectada pierda clientes.

Recientemente, un refugiado sirio demandó a Facebook después de que se difundieran en la red social noticias falsas que lo vinculaban con el terrorismo. Facebook luego eliminó las publicaciones, pero el daño ya estaba hecho.

Las plataformas de descubrimiento de contenido y los sitios de redes sociales pueden estar en peligro de ser demandados si estos problemas continúan ocurriendo. Esto también afectaría la reputación de las plataformas de descubrimiento de contenido donde se difunden tales noticias, lo que provocaría una disminución de la participación de los usuarios. Con todas estas repercusiones, las noticias falsas son un gran problema que debe cortarse de raíz.

¿Puede la IA ayudar?

Detectar y combatir noticias falsas es una tarea desafiante, de eso no hay duda. Ciertamente no es una solución viable emplear humanos para revisar cada publicación que se comparte en las plataformas de descubrimiento de contenido para evaluar su autenticidad. Afortunadamente, ya no vivimos en una era en la que los humanos tienen que hacer todo el trabajo duro.

La inteligencia artificial ha recorrido un largo camino desde el concepto de ciencia ficción que solía ser. Ahora contamos con potentes algoritmos de reconocimiento de voz, imágenes y patrones y la potencia informática para ejecutarlos.

Combatir las noticias falsas utilizando inteligencia artificial y aprendizaje automático sería el camino a seguir considerando la profundidad de este problema. Para permitir que las máquinas detecten noticias falsas, primero tendremos que identificar las características comunes de las publicaciones de noticias falsas. Veamos cómo se puede lograr esto.

Reputación del sitio web

La reputación de un sitio web es uno de los indicadores clave que se pueden utilizar para evaluar la autenticidad de un artículo publicado en él. Google, el gigante de los motores de búsqueda, hace un gran trabajo al clasificar las páginas web en sus SERP con respecto a su reputación. Aunque no podremos usar el algoritmo patentado de Google para detectar noticias falsas, podríamos usar las señales de clasificación de muchos otros sitios web, como el DA, la clasificación de Alexa y la antigüedad del dominio, para clasificar una página web en nuestro propio sistema de detección de noticias falsas. Es más probable que los sitios más antiguos con un alto ranking de Alexa sean fuentes confiables, mientras que lo contrario puede indicar un sitio web poco profundo.

Procesamiento natural del lenguaje

El procesamiento del lenguaje natural, en su definición más simple, es la capacidad de una máquina para comprender verdaderamente el lenguaje humano y procesarlo de la misma manera que lo hace un ser humano. Los motores NLP se construyen alimentando algoritmos de aprendizaje automático con corpus de texto. Para detectar verdaderamente las noticias falsas, las máquinas deben ser capaces de interpretar los lenguajes humanos tal como lo hacemos nosotros. Cuando se trata de la detección de noticias falsas, el motor NLP debe alimentarse con grandes cantidades de datos de texto que pertenecen a artículos genuinos y falsos. A partir de ahí, se puede descifrar el código de noticias falsas, lo que esencialmente permitirá que las máquinas detecten noticias falsas con una precisión decente. Aquí hay dos cosas que el algoritmo puede usar para detectar las publicaciones de noticias falsas.

a) Consistencia interna

Los artículos falsos o engañosos a menudo tienen una gran cantidad de inconsistencias entre las diferentes partes de la publicación en sí; digamos el título, el cuerpo del texto, el fragmento, etc. Se puede usar un sistema NLP para escanear y evaluar si los hechos representados dentro de un artículo son consistentes o contradictorios.

b) Buscar palabras sensacionalistas

Los artículos excesivamente sensacionalistas a menudo tienden a ser falsos. Se puede utilizar un sistema de procesamiento de lenguaje natural para definir el aspecto sensacionalista del artículo a partir del uso de palabras sensacionalistas en el artículo de noticias.

El papel del web scraping

Un motor de inteligencia artificial que pueda detectar noticias falsas obviamente requerirá grandes cantidades de datos que se utilizarían para entrenar el algoritmo de aprendizaje automático. La extracción de datos de la web no debería ser un problema teniendo en cuenta que existen tecnologías avanzadas que se pueden utilizar para un web scraping eficiente. Sin embargo, dado que detectar noticias falsas es un desafío en sí mismo, se recomienda utilizar una solución de datos como servicio (DaaS) como PromptCloud para adquirir los datos de los medios de comunicación (tanto genuinos como falsos). Dado que asumimos la responsabilidad integral del proceso de extracción de datos, puede omitir las complejidades asociadas con el web scraping y obtener datos listos para usar a un costo significativamente menor en comparación con el scraping interno.

Agregar una capa manual

A medida que una máquina identifica pistas y marca las publicaciones que cree que son falsas, se puede usar una pequeña capa humana para validar los hallazgos. Esto será fácil ahora que todo el trabajo pesado ya lo ha hecho el sistema de IA. Con la capa manual instalada, el sistema sería lo suficientemente potente como para detectar noticias falsas con una precisión muy alta. Para las plataformas de descubrimiento de contenido y los sitios de redes sociales, tener la capacidad de eliminar las noticias falsas resultaría esencial para mantener a los usuarios interesados ​​a medida que pasa el tiempo y los usuarios pierden la confianza en las noticias que se difunden en dichas plataformas. El potencial de la IA y la extracción de datos web en este sentido es inmenso y debe utilizarse para combatir este mal lo antes posible.