Seguridad y ética en la IA: el enfoque de Meltwater

Publicado: 2023-08-16

La IA está transformando nuestro mundo, ofreciéndonos capacidades nuevas y sorprendentes, como la creación de contenido y análisis de datos automatizados, y asistentes de IA personalizados. Si bien esta tecnología brinda oportunidades sin precedentes, también plantea importantes problemas de seguridad que deben abordarse para garantizar su uso confiable y equitativo.

En Meltwater, creemos que comprender y abordar estos desafíos de seguridad de la IA es crucial para el avance responsable de esta tecnología transformadora.

Las principales preocupaciones sobre la seguridad de la IA giran en torno a cómo hacemos que estos sistemas sean confiables, éticos y beneficiosos para todos. Esto se deriva de la posibilidad de que los sistemas de IA causen daños no deseados, tomen decisiones que no estén alineadas con los valores humanos, se utilicen maliciosamente o se vuelvan tan poderosos que se vuelvan incontrolables.

Tabla de contenido

  • Robustez

  • Alineación

  • Sesgo y equidad

  • Interpretabilidad

  • Deriva

  • El camino a seguir para la seguridad de la IA


Robustez

La solidez de la IA se refiere a su capacidad para desempeñarse bien de manera constante, incluso en condiciones cambiantes o inesperadas.

Si un modelo de IA no es sólido, puede fallar fácilmente o proporcionar resultados inexactos cuando se expone a nuevos datos o escenarios fuera de las muestras en las que se entrenó. Por lo tanto, un aspecto central de la seguridad de la IA es crear modelos robustos que puedan mantener niveles de alto rendimiento en diversas condiciones.

En Meltwater, abordamos la robustez de la IA tanto en las etapas de entrenamiento como de inferencia. Se emplean múltiples técnicas como el entrenamiento contradictorio, la cuantificación de la incertidumbre y el aprendizaje federado para mejorar la resiliencia de los sistemas de IA en situaciones inciertas o contradictorias.

Alineación

En este contexto, "alineación" se refiere al proceso de garantizar que los objetivos y las decisiones de los sistemas de IA estén sincronizados con los valores humanos, un concepto conocido como alineación de valores.

La IA desalineada podría tomar decisiones que los humanos consideran indeseables o dañinas, a pesar de ser óptimas según los parámetros de aprendizaje del sistema. Para lograr una IA segura, los investigadores están trabajando en sistemas que comprendan y respeten los valores humanos a lo largo de sus procesos de toma de decisiones, incluso mientras aprenden y evolucionan.

La construcción de sistemas de IA alineados con el valor requiere interacción continua y retroalimentación de los humanos. Meltwater hace un uso extensivo de las técnicas Human In The Loop (HITL), incorporando comentarios humanos en diferentes etapas de nuestros flujos de trabajo de desarrollo de IA, incluida la supervisión en línea del rendimiento del modelo.

Se están adoptando técnicas como el aprendizaje por refuerzo inverso, el aprendizaje cooperativo por refuerzo inverso y los juegos de asistencia para aprender y respetar los valores y las preferencias humanas. También aprovechamos la teoría de la agregación y la elección social para manejar valores en conflicto entre diferentes humanos.

Sesgo y equidad

Un problema crítico con la IA es su potencial para amplificar los sesgos existentes, lo que lleva a resultados injustos.

El sesgo en la IA puede deberse a varios factores, incluidos (entre otros) los datos utilizados para entrenar los sistemas, el diseño de los algoritmos o el contexto en el que se aplican. Si un sistema de IA se entrena con datos históricos que contienen decisiones sesgadas, el sistema podría perpetuar estos sesgos sin darse cuenta.

Un ejemplo es la IA de selección de trabajo que puede favorecer injustamente a un género en particular porque fue entrenada en decisiones de contratación anteriores que fueron sesgadas. Abordar la equidad significa hacer esfuerzos deliberados para minimizar el sesgo en AI, asegurando así que trate a todos los individuos y grupos de manera equitativa.

Meltwater realiza un análisis de sesgo en todos nuestros conjuntos de datos de entrenamiento, tanto internos como de código abierto, y solicita adversariamente todos los modelos de lenguaje grande (LLM) para identificar el sesgo. Hacemos un uso extensivo de las pruebas de comportamiento para identificar problemas sistémicos en nuestros modelos de opinión y aplicamos la configuración de moderación de contenido más estricta en todos los LLM utilizados por nuestros asistentes de IA. Se están aprovechando múltiples definiciones de equidad estadística y computacional, que incluyen (pero no se limitan a) la paridad demográfica, la igualdad de oportunidades y la equidad individual, para minimizar el impacto del sesgo de la IA en nuestros productos.

Interpretabilidad

La transparencia en la IA, a menudo denominada interpretabilidad o explicabilidad, es una consideración de seguridad crucial. Implica la capacidad de comprender y explicar cómo los sistemas de IA toman decisiones.

Sin interpretabilidad, las recomendaciones de un sistema de IA pueden parecer una caja negra, lo que dificulta la detección, el diagnóstico y la corrección de errores o sesgos. En consecuencia, fomentar la interpretabilidad en los sistemas de IA mejora la responsabilidad, mejora la confianza del usuario y promueve un uso más seguro de la IA. Meltwater adopta técnicas estándar, como LIME y SHAP, para comprender los comportamientos subyacentes de nuestros sistemas de IA y hacerlos más transparentes.

Deriva

La desviación de la IA, o desviación del concepto, se refiere al cambio en los patrones de datos de entrada a lo largo del tiempo. Este cambio podría provocar una disminución en el rendimiento del modelo de IA, lo que afectaría la confiabilidad y seguridad de sus predicciones o recomendaciones.

Detectar y gestionar la desviación es fundamental para mantener la seguridad y la solidez de los sistemas de IA en un mundo dinámico. El manejo efectivo de la deriva requiere un monitoreo continuo del rendimiento del sistema y la actualización del modelo cuando sea necesario.

Meltwater monitorea las distribuciones de las inferencias realizadas por nuestros modelos de IA en tiempo real para detectar la desviación del modelo y los problemas emergentes de calidad de los datos.

El camino a seguir para la seguridad de la IA

La seguridad de la IA es un desafío multifacético que requiere el esfuerzo colectivo de investigadores, desarrolladores de IA, legisladores y la sociedad en general.

Como empresa, debemos contribuir a crear una cultura donde se priorice la seguridad de la IA. Esto incluye establecer normas de seguridad para toda la industria, fomentar una cultura de apertura y responsabilidad, y un firme compromiso de utilizar la IA para aumentar nuestras capacidades de manera alineada con los valores más arraigados de Meltwater.

Con este compromiso continuo viene la responsabilidad, y los equipos de IA de Meltwater han establecido un conjunto de principios éticos de IA de Meltwater inspirados en los de Google y la OCDE. Estos principios forman la base de cómo Meltwater lleva a cabo la investigación y el desarrollo en inteligencia artificial, aprendizaje automático y ciencia de datos.

  1. Beneficiar a la sociedad cada vez que surjan oportunidades de manera inclusiva y sostenible.
  2. El sesgo y las desviaciones son defectos. Le fallan al negocio ya nuestros clientes.
  3. Seguridad, privacidad y seguridad como ciudadanos de primera clase.
  4. Rastree todo y sea responsable. La transparencia es clave.
  5. Somos científicos e ingenieros; todo debe ser probado y probado.
  6. Use código abierto siempre que sea posible; examine todo lo demás y asuma que no es seguro.

Meltwater ha establecido asociaciones y membresías para fortalecer aún más su compromiso de fomentar prácticas éticas de IA.

  • Meltwater estableció un Consejo Asesor Científico (SAB), que es un equipo de distinguidos investigadores científicos y profesionales que ofrecen orientación sobre la estrategia de IA de Meltwater.
  • Meltwater se adhiere a la guía del PR Council para IA generativa que se presentó en abril de 2023
  • Meltwater ayuda a las marcas que se adhieren al marco de idoneidad y piso de seguridad de marca de WAF GARM al proporcionar múltiples modelos de inteligencia artificial para detectar contenido dañino, abusivo e inseguro en texto, audio, imágenes y videos, incluidos casos de uso de información errónea a través de nuestra asociación Newsguard.

Estamos extremadamente orgullosos de lo lejos que ha llegado Meltwater en la entrega de IA ética a los clientes. Creemos que Meltwater está preparado para continuar brindando innovaciones revolucionarias para optimizar el viaje de inteligencia en el futuro y estamos entusiasmados de continuar asumiendo un papel de liderazgo en la defensa responsable de nuestros principios en el desarrollo de IA, fomentando la transparencia continua, lo que conduce a una mayor confianza entre los clientes.