IA impulsada por audio: lo que depara el futuro para la IA de audio
Publicado: 2024-03-20Contenido del artículo
Audio AI está cambiando la forma en que creamos y consumimos contenido. Ya es una industria valorada en 4.000 millones de dólares y se prevé que triplicará su valor para finales de la década.
Pero, ¿cómo es realmente el estado actual de la IA del audio y cómo está cambiando esta joven industria?
Estamos desglosando qué tipos de herramientas de inteligencia artificial de audio ya existen, cómo los especialistas en marketing y las empresas pueden comenzar a usarlas hoy y algunos indicadores interesantes sobre hacia dónde se dirige la industria.
¿Listo para escuchar hablar a algunos robots? Empecemos.
El panorama actual de la IA de audio
Audio AI produce sonidos y habla con inteligencia artificial .
Los productos de esta industria incluyen herramientas para transformar texto en voz, crear réplicas de voz para doblaje y potenciar asistentes de voz que pueden imitar el tono y la cadencia humanos. Herramientas como ElevenLabs y Resemble AI ya tienen la capacidad de producir contenido de audio realista y de alta calidad.
Aquí hay tres formas en que la gente ya está utilizando esta tecnología innovadora.
IA de audio para creadores
Audio AI está transformando la creación de contenido, especialmente cuando se trata de tipos de contenido como audiolibros y podcasts. Los creadores ahora tienen la opción de utilizar voces sintéticas, que pueden replicar la entonación y las emociones humanas, eliminando la necesidad de configuraciones de grabación tradicionales. Esto podría ayudarles a ahorrar tiempo y costos de producción.
Basta con mirar este vídeo, una combinación de IA de audio y vídeo, creado por el director ejecutivo de la Fundación, Ross Simmonds. Lo que podría haberle llevado horas (sentarse, escribir el guión, grabar y editar), lo pudo hacer en minutos.
Experimento de fin de semana:
Crea un video mío con solo IA.
Aquí está el resultado.
Seguro. Necesita trabajo. Pero está bastante cerca...
¿CÓMO?
1) La IA reconstruyó mi voz utilizando grabaciones de podcasts antiguas.
2) AI utilizó mi antigua publicación de blog como guión.
3) La IA utilizó una captura de pantalla de un vídeo antiguo de… pic.twitter.com/xmuRUotrjV– Ross Simmonds (@TheCoolestCool) 4 de julio de 2023
Para los especialistas en marketing y otros empresarios, vale la pena considerar cómo esto podría hacer posibles más tipos de contenido de audio. Esto es especialmente cierto para las pequeñas empresas con recursos limitados; tal vez ahora pueda crear un podcast que antes habría sido demasiado costoso o llevaría mucho tiempo.
Este caso de uso no está exento de controversia. Los críticos plantean preocupaciones éticas en torno al consentimiento y la compensación y argumentan que podrían socavar la profesión de actor de voz. El riesgo de audio falsificado y un posible uso indebido también cobra gran importancia, lo que pone de relieve la necesidad de marcos regulatorios para gestionar estas tecnologías emergentes de manera responsable.
Una respuesta a los riesgos de esta tecnología son las licencias de voz. Algunos actores de doblaje están respondiendo a la amenaza a su profesión otorgando licencias para que sus voces sean utilizadas como clones de IA de voz en servicios como la biblioteca de voz de ElevenLabs. Luego, recibirán una tarifa de licencia cada vez que alguien use su voz.
Pero en Estados Unidos, una voz en sí no se considera protegida por derechos de autor , sólo grabaciones de voz específicas. Así como utilizar un cantante con un sonido similar es una forma legal de imitar la voz de una persona, lo mismo puede aplicarse al audio deepfake. Esto coloca la clonación de voz y la concesión de licencias en una zona legal gris, especialmente porque la jurisprudencia pertinente data de 1988. Sólo más casos y la aprobación de leyes como la Ley contra el fraude en la IA podrán aclarar esto.
Audio AI para traducción y doblaje
Audio AI también está cambiando la industria de la traducción y el doblaje. Esta tecnología puede crear interpretación de texto a voz y de voz a voz, esforzándose por imitar fielmente el tono y la emoción del hablante original para una experiencia auditiva más auténtica.
Esta publicación viral en las redes sociales muestra la capacidad del doblaje mediante IA para romper las barreras del idioma incluso en la música:
Hermano, en realidad estoy llorando por el verso de Lil Yachty ️ pic.twitter.com/ZX6rqD0McE
– ₭ma (@KmaFr_) 20 de febrero de 2024
Este doblaje del inglés al chino mandarín tenía 1,7 millones de visitas en el momento de su publicación. La mayoría de las personas que comentan la publicación ni siquiera hablan el idioma; simplemente están asombrados por la tecnología.
Pero a pesar de su potencial, todavía existen riesgos asociados con la traducción y el doblaje mediante IA. Por ejemplo, abre la puerta a una pérdida de matices en la traducción, así como a una mala interpretación cultural. También plantea una consideración ética sobre replicar la voz de una persona sin su consentimiento.
También existe el riesgo de que las personas lo manipulen intencionalmente para doblar incorrectamente las palabras reales de alguien. Aquí hay un ejemplo de alguien que creó un video falso de Morgan Freeman hablando, con resultados bastante convincentes:
ÚLTIMA HORA: La Comisión Federal Electoral está estudiando la posibilidad de regular los anuncios políticos falsos generados por IA antes de las elecciones de 2024.
Para aquellos que no lo saben, un deep fake suele ser un clip de audio/vídeo creado por IA que parece mostrar a un individuo diciendo algo o... pic.twitter.com/7lmlNht4QP
– Ed Krassenstein (@EdKrassen) 11 de agosto de 2023
Garantizar la precisión y respetar los derechos de los demás a elegir cómo se utiliza su voz son fundamentales a medida que avanza esta tecnología. Si se utiliza de forma eficaz, podría abrir un mundo de posibilidades, permitiéndonos disfrutar de contenidos que antes eran inaccesibles e incluso hablar con otras personas más fácilmente que antes.
Audio AI para asistentes de voz
Los asistentes de voz como Siri, Alexa y Google Assistant ya funcionan con inteligencia artificial de audio y utilizan procesamiento de lenguaje natural para comprender y responder a los comandos del usuario. Estos asistentes representan una aplicación importante de la IA de audio, ya que reconocen y utilizan el habla para interactuar con los usuarios.
Los asistentes de voz ya son populares: el 62% de los adultos estadounidenses afirman utilizar uno.
Con la mejora de la IA, es probable que en el futuro se vuelvan más precisos y, en consecuencia, más populares. A medida que ese número aumente, será más importante que las empresas optimicen sus artículos y otro contenido en línea para las búsquedas por voz.
Pero también existen algunas preocupaciones con respecto a ellos. Google ya ha sido objeto de una demanda que alega que grabó y distribuyó ilegalmente las conversaciones de personas que activaron su asistente de voz por accidente.
El futuro de la IA del audio
Esas tres aplicaciones para IA de audio son sólo el comienzo.
No me malinterpretes, la conversión de texto a voz, el doblaje y los asistentes de voz son aplicaciones poderosas. Pero hay aún más cosas que la IA de audio podría hacer en el futuro.
Aquí hay tres áreas clave en las que predecimos crecimiento:
Crecimiento de la IA en el servicio al cliente
La integración de la IA de voz en el servicio al cliente tiene el potencial de revolucionar la forma en que las empresas interactúan con sus clientes. Las empresas ya están utilizando chatbots de IA para el servicio al cliente, por lo que esto sería una extensión natural de ese caso de uso existente.
Por ejemplo, la IA de audio podría crear efectivamente una versión de audio de esta interacción con el chat de servicio al cliente de H&M:
Con los centros de llamadas impulsados por IA, las empresas podrán manejar un gran volumen de consultas con mayor eficiencia, reduciendo los tiempos de espera y optimizando la experiencia del cliente.
En términos de funciones, predecimos que la IA de audio podrá hacer más que simplemente automatizar respuestas. En el futuro, la IA del audio probablemente podrá analizar la opinión del cliente y adaptar las interacciones a las necesidades individuales. Esto podría mejorar la calidad general del servicio a escalas que hoy en día serían prohibitivamente costosas para muchas empresas.
Como parte de esto, el análisis de voz de IA puede proporcionar retroalimentación en tiempo real a los profesionales de servicio al cliente: señalar la frustración o confusión del cliente que tal vez no se exprese abiertamente permitirá un enfoque más matizado y empático. Las herramientas de inteligencia artificial como Einstein de Salesforce ya pueden identificar tendencias comunes en los datos de los clientes, por lo que en el futuro, la inteligencia artificial de audio podrá hacer lo mismo con las grabaciones de llamadas de los clientes.
La IA de voz también podría convertirse en el principal punto de contacto del cliente con una empresa. Actualmente, las empresas utilizan software de reconocimiento de voz con respuestas pregrabadas para solucionar los problemas más comunes de los clientes. Con la IA, estos podrían integrarse de forma más natural en una conversación con el cliente.
Sin embargo, este salto tecnológico conlleva desafíos. Los primeros problemas con la implementación de la IA en el servicio al cliente, como que los chatbots no comprendieran o no respondieran adecuadamente a las consultas complejas de los clientes, han puesto de relieve las limitaciones de las tecnologías de IA actuales.
De hecho, un chatbot de IA de servicio al cliente le costó dinero a una aerolínea por hacer promesas sobre su política de reembolso que no eran ciertas.
Esta es una tecnología con la que las empresas deben tener cuidado. Pero si bien es posible que estemos muy lejos de un servicio al cliente totalmente basado en IA, ya podemos ver empresas dando pasos en esta dirección.
Crecimiento de la IA en las comunicaciones empresariales
Audio AI está destinado a transformar el panorama profesional, no solo automatizando tareas rutinarias, como las comunicaciones internas y el papeleo diario, sino también redefiniendo la naturaleza del trabajo y la colaboración dentro de las organizaciones.
Por ejemplo, la IA de audio podría automatizar las entrevistas de contratación temprana para un proceso de selección más eficiente. Esto permitirá a los reclutadores centrarse en candidatos que cumplan criterios específicos según sus respuestas y ayudará a agilizar el proceso de contratación. También reduciría la posibilidad de que los prejuicios humanos descarten incorrectamente a los candidatos potenciales.
Audio AI también podría ayudar con las comunicaciones internas, traduciendo mensajes a varios idiomas en tiempo real y garantizando que los equipos globales permanezcan en sintonía a través de tecnología como la que ya ha desarrollado ElevenLabs . Esto podría facilitar mucho la comunicación y la colaboración en entornos de trabajo cada vez más diversos y dispersos.
Al reunir a personas que hablan diferentes idiomas, la IA del audio facilitará que las empresas contraten personas excelentes, independientemente de dónde vivan o qué idioma hablen. Eso conducirá a una mayor diversidad lingüística y geográfica, y las comunicaciones internas serán simples incluso entre empleados que no saben una palabra de los idiomas nativos de los demás.
Sin embargo, la integración de la IA de audio en el lugar de trabajo no está exenta de riesgos. Las preocupaciones incluyen la posibilidad de que se produzcan malas interpretaciones durante las entrevistas automatizadas, donde se pueden pasar por alto matices del habla o señales no verbales. Depender de la IA para las comunicaciones internas y las interacciones con los clientes también podría resultar en la pérdida del toque personal que fomenta conexiones genuinas entre las personas.
Crecimiento de la IA en el entretenimiento
El entretenimiento es otra área en la que la IA del audio probablemente cambiará drásticamente en el futuro. Con él, las personas podrán crear nueva música y podcasts de forma más rápida y sencilla que nunca.
La IA impulsada por audio tendrá muchos casos de uso.
Aquí hay algunos (y sé que algunas personas los odiarán porque están eliminando el elemento *humano* de tantas cosas) que creo que cambiarán todo:
– Audiolibros creados con voces sintéticas.
– Podcasts que se ejecutan con…- Ross Simmonds (@TheCoolestCool) 30 de noviembre de 2023
Las herramientas impulsadas por IA también podrían ayudar a los creadores de podcasts a automatizar numerosos aspectos de la producción, como en el ejemplo siguiente, reduciendo los tiempos y costos de producción.
️ Caso de uso de podcaster para ChatGPT.
Haga que AI convierta y combine archivos de audio.
Añade introducciones y finales a un episodio. pic.twitter.com/u8DSqHUq5h— Troya Tesalónica | Automatización Ace ️ (@AutomationAce_) 27 de octubre de 2023
Una de las aplicaciones más intrigantes y controvertidas de la IA de audio es su capacidad para producir música al estilo de artistas existentes o pasados. Proyectos como Jukebox de OpenAI , que genera música en varios estilos desde cero, ilustran tanto el potencial como las limitaciones actuales de la IA en los procesos creativos.
Si bien los resultados son impresionantes para una tecnología tan temprana, carecen de la profundidad emocional y la complejidad de la música creada por artistas humanos. Si bien esto podría cambiar las reglas del juego en el futuro, aún no reemplaza a los artistas humanos.
En el futuro, la IA podría ayudar a los artistas permitiéndoles explorar nuevos géneros, estilos o conceptos sin invertir días de trabajo. Podría servir como una “prueba de concepto” para un artista que está indeciso sobre una idea.
También podría ayudar a los podcasters al automatizar las voces en off y generar música y efectos de sonido de fondo, una vez que se desarrollen esas capacidades.
Las regulaciones van por detrás de las aplicaciones en este sentido, aunque Universal Music Group logró eliminar una canción generada por IA que imita una colaboración entre Drake y The Weeknd.
También surgen preocupaciones éticas y legales cuando se utiliza la IA para imitar las voces o estilos de artistas existentes y pasados. El debate sobre los lanzamientos póstumos y la autenticidad de las obras creadas por IA subraya la necesidad de directrices claras y estándares éticos en el uso de la IA en el entretenimiento.
Las aplicaciones de Audio AI con entretenimiento harán que la tecnología y la creatividad se encuentren. A medida que la tecnología de IA madure y adquiera más matices en su comprensión y replicación de la creatividad humana, seguirá superando las limitaciones actuales, abriendo nuevos horizontes para los artistas y nuevos riesgos que superar.
Cómo prepararse para usos nuevos y futuros de la IA de audio
Aquí hay cuatro pasos principales que puede seguir para prepararse para el éxito con la IA de audio.
1. Consideraciones éticas y desarrollo de políticas
Las empresas deben adoptar políticas claras y éticas para el uso de la IA de audio, priorizando la transparencia con los usuarios.
Si está utilizando una voz de IA basada en la voz de otra persona que no sea la suya, primero asegúrese de tener su permiso. Si la IA se está comunicando con un cliente, asegúrese de que el cliente sepa que no es una persona viva.
También debe crear medidas de seguridad para evitar el acceso y uso no autorizados de los datos de voz que tenga. Eso significa crear controles de acceso estrictos sobre quién puede usar los datos y seguir las mejores prácticas de cifrado .
Sus políticas también deberán abordar el potencial de mal comportamiento, asegurándose de tener un proceso para manejar cualquier IA que diga algo que no esté dentro de las políticas de su empresa, como en el ejemplo anterior de la aerolínea.
2. Inversión en alfabetización en IA audio
Para invertir en alfabetización en IA de audio, las empresas pueden priorizar programas de educación y capacitación para sus equipos sobre el funcionamiento, el potencial y las limitaciones de las tecnologías de IA de audio.
Para ello, cree o invierta en talleres, seminarios y cursos en línea para mejorar el entendimiento entre los empleados de todos los niveles, desde el personal técnico hasta los tomadores de decisiones.
En Foundation, hacemos esto brindando a los empleados múltiples vías para el desarrollo profesional, como cubrir el costo de las clases. Otras empresas pueden hacer esto con iniciativas de tutoría o educación entre pares.
Esa educación puede ayudar a desmitificar la IA, creando un entorno en el que todos puedan tomar decisiones informadas y estratégicas sobre cómo utilizarla de forma ética y eficaz.
3. Experimentación y colaboración
Si ha seguido los dos primeros puntos, entonces ya ha creado pautas sobre cómo las personasdebenusar la IA y educación sobre cómopuedenusarla. Ahora, debes fomentar un entorno en el que se sientan libres de innovar. De esta forma, loutilizaránen su máximo potencial.
A diferencia de las nuevas empresas, donde el estímulo para innovar proviene del entorno empresarial, una gran corporación necesita diseñar sus entornos y estructuras para inspirar a las personas.
– Walter T. Rambwi (@hr_taurai) 18 de octubre de 2021
Las asociaciones entre ingenieros y personas de otros departamentos pueden ser fructíferas aquí, ayudando a las personas a ver cómo la IA del audio puede ayudar a resolver los problemas existentes.
Incluso puede convertir esto en un proyecto de su departamento de recursos humanos, fomentando una cultura general de colaboración y creando días interdepartamentales donde las personas puedan compartir juntas lo que han aprendido sobre la IA.
4. Adaptación de los modelos de negocio
A medida que evoluciona la capacidad de la IA de audio, también debería hacerlo su modelo de negocio. Puedes adoptar la IA de audio de varias formas, como por ejemplo:
- Utilizar sus capacidades de creación de contenidos y entretenimiento para experimentar con nuevas formas de marketing de contenidos.
- Aprovecharlo para una comunicación más eficiente dentro de una fuerza laboral global
- Utilizándolo en el servicio al cliente para lograr eficiencia y escalabilidad.
Para empezar a hacer esto a medida que la tecnología madure, establezca un sistema de proyectos piloto para probar aplicaciones de IA de audio. Debe prestar atención específicamente a las áreas donde existe el mayor valor potencial para su empresa, como el análisis de los datos de los clientes para personalizar las interacciones.
Este enfoque le ayudará a seguir siendo competitivo y relevante en un panorama tecnológico que cambia constantemente y adopta la IA.
Manténgase a la vanguardia de los avances en tecnología e inteligencia artificial
Audio AI ya está aquí y cada vez es más avanzado. Está cambiando la forma en que creamos, doblamos y buscamos contenido. En el futuro, sus aplicaciones serán cada vez más variadas, lo que ayudará a las empresas a mejorar su servicio al cliente, sus comunicaciones internas y sus productos de entretenimiento.
Es por eso que desglosamos cómo las organizaciones de marketing más avanzadas en tecnología están innovando y manteniéndose a la vanguardia.
¿Interesado? Puede acceder a nuestra biblioteca completa de estudios de casos y desgloses aquí mismo .