IA orientada para áudio: o que o futuro reserva para a IA de áudio
Publicados: 2024-03-20Conteúdo do artigo
A IA de áudio está mudando a maneira como criamos e consumimos conteúdo. Já é uma indústria que vale 4 mil milhões de dólares e prevê-se que triplique de valor até ao final da década.
Mas como é realmente o estado atual da IA de áudio e como essa jovem indústria está mudando?
Estamos detalhando quais tipos de ferramentas de IA de áudio já existem, como os profissionais de marketing e as empresas podem começar a usá-las hoje e alguns indicadores interessantes sobre o rumo que a indústria está tomando.
Pronto para ouvir alguns robôs falarem? Vamos começar.
O cenário atual da IA de áudio
Audio AI produz sons e fala com inteligência artificial .
Os produtos desta indústria incluem ferramentas para transformar texto em fala, criar réplicas de voz para dublagem e capacitar assistentes de voz que podem imitar o tom e a cadência humanos. Ferramentas como ElevenLabs e Resemble AI já têm a capacidade de produzir conteúdo de áudio realista e de alta qualidade.
Aqui estão três maneiras pelas quais as pessoas já estão usando essa tecnologia inovadora.
IA de áudio para criadores
A IA de áudio está transformando a criação de conteúdo, especialmente quando se trata de tipos de conteúdo como audiolivros e podcasts. Os criadores agora têm a opção de usar vozes sintéticas, que podem replicar a entonação e a emoção humanas, eliminando a necessidade de configurações de gravação tradicionais. Isso poderia ajudá-los a economizar tempo e custos de produção.
Basta olhar para este vídeo – uma combinação de IA de áudio e vídeo – criado pelo CEO da Fundação, Ross Simmonds. O que poderia ter levado horas (para sentar, escrever o roteiro, gravar e editar), ele conseguiu fazer em minutos.
Experiência de fim de semana:
Crie um vídeo meu apenas com IA.
Aqui está o resultado.
Claro. Precisa de trabalho. Mas está bem perto…
COMO?
1) A IA reconstruiu minha voz usando gravações antigas de podcast.
2) A IA usou minha antiga postagem no blog como script.
3) A IA usou uma captura de tela de um vídeo antigo de… pic.twitter.com/xmuRUotrjV-Ross Simmonds (@TheCoolestCool) 4 de julho de 2023
Para profissionais de marketing e outros empresários, vale a pena considerar como isso poderia tornar possíveis mais tipos de conteúdo de áudio. Isso é especialmente verdadeiro para pequenas empresas com recursos limitados – talvez agora você possa fazer um podcast que antes seria muito caro ou demorado.
Este caso de uso não é isento de controvérsia. Os críticos levantam preocupações éticas em torno do consentimento e da compensação e argumentam que isso poderia prejudicar a profissão de dublagem. O risco de áudio falso e potencial utilização indevida também é grande, destacando a necessidade de quadros regulamentares para gerir estas tecnologias emergentes de forma responsável.
Uma resposta aos riscos desta tecnologia é o licenciamento de voz. Alguns dubladores estão respondendo à ameaça à sua profissão licenciando suas vozes para serem usadas como clones de IA de voz em serviços como a biblioteca de voz da ElevenLabs. Então, eles receberão uma taxa de licenciamento sempre que alguém usar sua voz.
Mas nos EUA, uma voz em si não é considerada protegida por direitos autorais , apenas gravações de voz específicas. Assim como usar um cantor “semelhante” é uma forma legal de imitar a voz de uma pessoa, o mesmo pode se aplicar ao áudio deepfake. Isso coloca a clonagem e o licenciamento de voz numa zona jurídica cinzenta, especialmente porque a jurisprudência relevante é de 1988. Apenas outros casos e a aprovação de leis como a Lei No AI Fraud poderão esclarecer isto.
AI de áudio para tradução e dublagem
A Audio AI também está mudando a indústria de tradução e dublagem. Esta tecnologia pode criar interpretação de texto para voz e voz para voz, esforçando-se para imitar de perto o tom e a emoção do locutor original para uma experiência auditiva mais autêntica.
Esta postagem viral na mídia social mostra a capacidade da dublagem de IA de quebrar barreiras linguísticas, mesmo na música:
Cara, na verdade estou chorando com o verso de Lil Yachtys️ pic.twitter.com/ZX6rqD0McE
– ₭ma (@KmaFr_) 20 de fevereiro de 2024
Esta dublagem do inglês para o mandarim teve 1,7 milhão de visualizações no momento da postagem. A maioria das pessoas que comentam a postagem nem falam a língua – elas estão apenas maravilhadas com a tecnologia.
Mas, apesar do seu potencial, ainda existem riscos associados à tradução e dublagem de IA. Por exemplo, abre a porta para a perda de nuances na tradução, bem como para a má interpretação cultural. Também traz à tona uma consideração ética relativa à replicação da voz de uma pessoa sem o seu consentimento.
Há também o risco de que as pessoas o manipulem intencionalmente para dublar incorretamente as palavras reais de alguém. Aqui está um exemplo de alguém criando um vídeo falso de Morgan Freeman falando, com resultados bastante convincentes:
QUEBRANDO: A Comissão Eleitoral Federal está estudando a possibilidade de regulamentar anúncios políticos falsos gerados por IA antes das eleições de 2024.
Para quem não sabe, um deep fake geralmente é um clipe de áudio/vídeo criado por IA que parece mostrar um indivíduo dizendo algo ou… pic.twitter.com/7lmlNht4QP
-Ed Krassenstein (@EdKrassen) 11 de agosto de 2023
Garantir a precisão e respeitar os direitos dos outros de escolher como a sua voz será usada é fundamental à medida que esta tecnologia avança. Se utilizado de forma eficaz, poderá abrir um mundo de possibilidades, permitindo-nos desfrutar de conteúdos que antes eram inacessíveis e até conversar com outras pessoas com mais facilidade do que antes.
IA de áudio para assistentes de voz
Assistentes de voz como Siri, Alexa e Google Assistant já são alimentados por IA de áudio, usando processamento de linguagem natural para compreender e responder aos comandos do usuário. Esses assistentes representam uma aplicação significativa de IA de áudio, reconhecendo e usando a fala para interagir com os usuários.
Os assistentes de voz já são populares, com 62% dos adultos americanos relatando que usam um.
Com a melhoria da IA, é provável que eles se tornem mais precisos – e consequentemente mais populares – no futuro. À medida que esse número aumenta, será mais importante para as empresas otimizar seus artigos e outros conteúdos online para pesquisas por voz.
Mas também existem algumas preocupações com eles. O Google já foi alvo de uma ação judicial alegando que gravou e distribuiu ilegalmente conversas de pessoas que ativaram seu assistente de voz por acidente.
O futuro da IA de áudio
Essas três aplicações para IA de áudio são apenas o começo.
Não me interpretem mal, a conversão de texto em fala, a dublagem e os assistentes de voz são aplicativos poderosos. Mas há ainda mais coisas que a IA de áudio poderá fazer no futuro.
Aqui estão três áreas principais onde prevemos crescimento:
Crescimento da IA no atendimento ao cliente
A integração da IA de voz no atendimento ao cliente tem o potencial de revolucionar a forma como as empresas interagem com seus clientes. As empresas já estão usando chatbots de IA para atendimento ao cliente, então isso seria uma extensão natural do caso de uso existente
Por exemplo, a IA de áudio poderia efetivamente criar uma versão em áudio dessa interação com o chat de atendimento ao cliente da H&M:
Com call centers alimentados por IA, as empresas poderão lidar com um grande volume de consultas com melhor eficiência, reduzindo os tempos de espera e agilizando a experiência do cliente.
Em termos de recursos, prevemos que a IA de áudio será capaz de fazer mais do que apenas automatizar respostas. No futuro, a IA de áudio provavelmente será capaz de analisar o sentimento do cliente e adaptar as interações às necessidades individuais. Isto poderia melhorar a qualidade geral do serviço em escalas que seriam proibitivamente caras para muitas empresas hoje.
Como parte disso, a análise de voz de IA pode fornecer feedback em tempo real aos profissionais de atendimento ao cliente – apontar a frustração ou confusão do cliente que pode não ser expressa abertamente permitirá uma abordagem mais matizada e empática. Ferramentas de IA como o Einstein da Salesforce já podem identificar tendências comuns nos dados dos clientes, portanto, no futuro, a IA de áudio poderá fazer o mesmo com as gravações de chamadas dos clientes.
A Voice AI também pode se tornar o principal ponto de contato do cliente com uma empresa. Atualmente, as empresas utilizam software de reconhecimento de voz com respostas pré-gravadas para lidar com os problemas mais comuns dos clientes. Com a IA, estes poderiam integrar-se de forma mais natural numa conversa com o cliente.
No entanto, este salto tecnológico traz consigo desafios. Os primeiros problemas com a implementação de IA no atendimento ao cliente, como os chatbots que não conseguem compreender ou responder adequadamente às consultas complexas dos clientes, destacaram as limitações das atuais tecnologias de IA.
Na verdade, um chatbot de IA de atendimento ao cliente custou dinheiro a uma companhia aérea por fazer promessas sobre sua política de reembolso que não eram verdadeiras.
Esta é uma tecnologia com a qual as empresas devem ter cuidado. Mas embora possamos estar muito longe de um atendimento ao cliente totalmente baseado em IA, já podemos ver empresas tomando medidas nessa direção.
Crescimento da IA nas comunicações empresariais
A Audio AI foi criada para transformar o cenário profissional, não apenas automatizando tarefas rotineiras, como comunicações internas e papelada do dia a dia, mas também redefinindo a natureza do trabalho e da colaboração dentro das organizações.
Por exemplo, a IA de áudio poderia automatizar entrevistas antecipadas de contratação para um processo de triagem mais eficiente. Isso permitirá que os recrutadores se concentrem em candidatos que atendam a critérios específicos com base em suas respostas e ajudará a agilizar o processo de contratação. Também reduziria o potencial de preconceitos humanos para descontar incorretamente potenciais candidatos.
A Audio AI também poderia ajudar nas comunicações internas, traduzindo mensagens para vários idiomas em tempo real e garantindo que as equipes globais permaneçam na mesma página por meio de tecnologia como a que a ElevenLabs já desenvolveu . Isto poderia tornar a comunicação e a colaboração muito mais fáceis em ambientes de trabalho cada vez mais diversificados e dispersos.
Ao reunir pessoas que falam idiomas diferentes, a IA de áudio tornará mais fácil para as empresas contratarem pessoas excelentes, independentemente de onde vivam ou do idioma que falem. Isso levará a uma maior diversidade linguística e geográfica, e as comunicações internas tornar-se-ão simples, mesmo entre funcionários que não conhecem uma palavra da língua nativa uns dos outros.
No entanto, a integração da IA de áudio no local de trabalho apresenta riscos. As preocupações incluem o potencial de má interpretação durante entrevistas automatizadas, onde nuances de fala ou pistas não-verbais podem ser ignoradas. A dependência da IA para comunicações internas e interações com clientes também pode resultar na perda do toque pessoal que promove conexões genuínas entre as pessoas.
Crescimento da IA no entretenimento
O entretenimento é outra área em que a IA de áudio provavelmente mudará drasticamente no futuro. Com ele, as pessoas poderão criar novas músicas e podcasts com mais rapidez e facilidade do que nunca.
A IA baseada em áudio terá muitos casos de uso.
Aqui estão alguns (e eu sei que algumas pessoas vão odiar isso porque estão tirando o elemento *humano* de tantas coisas) que acho que mudarão tudo:
– Audiolivros criados com vozes sintéticas
– Podcasts rodando com…-Ross Simmonds (@TheCoolestCool) 30 de novembro de 2023
As ferramentas baseadas em IA também podem ajudar os criadores de podcast a automatizar vários aspectos da produção, como no exemplo abaixo, reduzindo os tempos e custos de produção.
️ Caso de uso de podcaster para ChatGPT.
Faça com que a IA converta e mescle arquivos de áudio.
Adicione introduções/outros a um episódio. pic.twitter.com/u8DSqHUq5h—Tróia Tessalone | Automation Ace ️ (@AutomationAce_) 27 de outubro de 2023
Uma das aplicações mais intrigantes e controversas da IA de áudio é a sua capacidade de produzir música no estilo de artistas existentes ou anteriores. Projetos como o Jukebox da OpenAI , que gera música em vários estilos a partir do zero, ilustram as limitações potenciais e atuais da IA nos processos criativos.
Embora os resultados sejam impressionantes para essa tecnologia em estágio inicial, falta-lhes a profundidade emocional e a complexidade da música criada por artistas humanos. Embora isso possa mudar o jogo no futuro, ainda não está substituindo os artistas humanos.
No futuro, a IA poderá ajudar os artistas, permitindo-lhes explorar novos gêneros, estilos ou conceitos sem investir dias de trabalho. Poderia servir como uma “prova de conceito” para um artista em dúvida sobre uma ideia.
Também poderia ajudar os podcasters, automatizando dublagens e gerando efeitos sonoros e música de fundo, uma vez que esses recursos sejam desenvolvidos.
As regulamentações estão atrasadas em relação às aplicações neste aspecto, embora o Universal Music Group tenha conseguido derrubar uma música gerada por IA que imitava uma colaboração entre Drake e The Weeknd.
Preocupações éticas e legais também surgem quando a IA é usada para imitar as vozes ou estilos de artistas existentes e antigos. O debate sobre os lançamentos póstumos e a autenticidade das obras criadas pela IA sublinha a necessidade de diretrizes claras e padrões éticos na utilização da IA no entretenimento.
As aplicações da Audio AI com entretenimento farão com que a tecnologia e a criatividade se encontrem. À medida que a tecnologia da IA amadurece e se torna mais matizada na sua compreensão e replicação da criatividade humana, continuará a superar as limitações atuais, abrindo novos horizontes para os artistas e novos riscos a superar.
Como se preparar para novos e futuros usos de IA de áudio
Aqui estão quatro etapas principais que você pode seguir para se preparar para o sucesso com IA de áudio.
1. Considerações Éticas e Desenvolvimento de Políticas
As empresas precisam adotar políticas claras e éticas para o uso de IA de áudio, priorizando a transparência com os usuários.
Se você estiver usando uma voz de IA baseada na voz de alguém que não seja a sua, primeiro certifique-se de ter a permissão dessa pessoa. Se a IA estiver se comunicando com um cliente, certifique-se de que o cliente saiba que não é uma pessoa viva.
Você também deve criar medidas de segurança para evitar o acesso não autorizado e o uso de quaisquer dados de voz que você possua. Isso significa criar controles de acesso rigorosos sobre quem pode usar os dados e seguir as melhores práticas de criptografia .
Suas políticas também precisarão abordar o potencial de mau comportamento, garantindo que você tenha um processo para lidar com qualquer IA que diga algo que não esteja dentro das políticas da sua empresa, como no exemplo anterior da companhia aérea.
2. Investimento em alfabetização em IA de áudio
Para investir na alfabetização em IA de áudio, as empresas podem priorizar programas de educação e treinamento para suas equipes sobre o funcionamento, o potencial e as limitações das tecnologias de IA de áudio.
Para isso, crie ou invista em workshops, seminários e cursos online para melhorar o entendimento entre os colaboradores de todos os níveis, desde o pessoal técnico até os tomadores de decisão.
Na Foundation, fazemos isso oferecendo aos funcionários vários caminhos para o desenvolvimento profissional, como cobrir os custos de cursos dos funcionários. Outras empresas podem fazer isso com iniciativas de orientação ou educação entre pares.
Essa educação pode ajudar a desmistificar a IA, criando um ambiente onde todos possam tomar decisões informadas e estratégicas sobre como utilizá-la de forma ética e eficaz.
3. Experimentação e Colaboração
Se você seguiu os dois primeiros pontos, então já criou diretrizes sobre como as pessoasdevemusar a IA e educação sobre comopodemusá-la. Agora, você deve promover um ambiente onde eles se sintam livres para inovar. Dessa forma, elesirãoutilizá-lo em seu potencial máximo.
Ao contrário das startups – onde o estímulo à inovação vem do ambiente empreendedor – uma grande empresa precisa de conceber os seus ambientes e estruturas para inspirar as pessoas.
-Walter T. Rambwi (@hr_taurai) 18 de outubro de 2021
Parcerias entre engenheiros e pessoas de outros departamentos podem ser frutíferas aqui, ajudando as pessoas a ver como a IA de áudio pode ajudar a resolver problemas existentes.
Você pode até fazer disso um projeto do seu departamento de RH, incentivando uma cultura geral de colaboração e criando dias interdepartamentais onde as pessoas podem compartilhar juntas o que aprenderam sobre IA.
4. Adaptação de modelos de negócios
À medida que a capacidade da IA de áudio evolui, o mesmo deve acontecer com o seu modelo de negócios. Você pode adotar a IA de áudio de várias maneiras, como:
- Usando seus recursos de criação de conteúdo e entretenimento para experimentar novas formas de marketing de conteúdo
- Aproveitando-o para uma comunicação mais eficiente dentro de uma força de trabalho global
- Usando-o no atendimento ao cliente para eficiência e escalabilidade
Para começar a fazer isso à medida que a tecnologia amadurece, estabeleça um sistema de projetos piloto para testar aplicações de IA de áudio. Você deve prestar atenção às áreas onde há maior valor potencial especificamente para sua empresa - como a análise de dados de clientes para personalizar as interações.
Essa abordagem ajudará você a permanecer competitivo e relevante em um cenário tecnológico que está em constante mudança e que adota a IA.
Fique na vanguarda dos avanços em tecnologia e IA
O Audio AI já está aqui e está cada vez mais avançado. Está mudando a forma como criamos, dublamos e pesquisamos conteúdo. No futuro, as suas aplicações tornar-se-ão ainda mais variadas, ajudando as empresas a melhorar o seu serviço ao cliente, comunicações internas e produtos de entretenimento.
É por isso que detalhamos como as organizações de marketing mais avançadas em tecnologia estão inovando e se mantendo à frente da curva.
Interessado? Você pode acessar nossa biblioteca completa de estudos de caso e análises aqui .