IA pilotée par l'audio : ce que l'avenir réserve à l'IA audio
Publié: 2024-03-20Contenu de l'article
L'IA audio change la façon dont nous créons et consommons du contenu. Il s'agit déjà d'une industrie valant 4 milliards de dollars , et sa valeur devrait tripler d'ici la fin de la décennie.
Mais à quoi ressemble réellement l’état actuel de l’IA audio et comment cette jeune industrie évolue-t-elle ?
Nous expliquons quels types d'outils d'IA audio existent déjà, comment les spécialistes du marketing et les entreprises peuvent commencer à les utiliser aujourd'hui, et quelques indicateurs intéressants sur la direction que prend l'industrie.
Prêt à entendre des robots parler ? Commençons.
Le paysage actuel de l’IA audio
L'Audio AI produit des sons et de la parole grâce à l'intelligence artificielle .
Les produits de cette industrie comprennent des outils permettant de transformer du texte en parole, de créer des répliques vocales pour le doublage et d'alimenter des assistants vocaux capables d'imiter le ton et la cadence humains. Des outils comme ElevenLabs et Resemble AI ont déjà la capacité de produire un contenu audio réaliste et de haute qualité.
Voici trois façons dont les gens utilisent déjà cette technologie révolutionnaire.
IA audio pour les créateurs
L'IA audio transforme la création de contenu, en particulier lorsqu'il s'agit de types de contenu tels que les livres audio et les podcasts. Les créateurs ont désormais la possibilité d'utiliser des voix synthétiques, capables de reproduire l'intonation et les émotions humaines, éliminant ainsi le besoin de configurations d'enregistrement traditionnelles. Cela pourrait les aider à économiser sur les coûts et le temps de production.
Il suffit de regarder cette vidéo – une combinaison d'IA audio et vidéo – créée par le PDG de la Fondation, Ross Simmonds. Ce qui aurait pu lui prendre des heures (pour s'asseoir, écrire, enregistrer et monter), il a pu le réaliser en quelques minutes.
Expérience du week-end :
Créez une vidéo de moi avec uniquement l'IA.
Voici le résultat.
Bien sûr. Il faut du travail. Mais c'est assez proche…
COMMENT?
1) L'IA a reconstruit ma voix à l'aide d'anciens enregistrements de podcast.
2) L'IA a utilisé mon ancien article de blog comme script.
3) L'IA a utilisé une capture d'écran d'une ancienne vidéo de… pic.twitter.com/xmuRUotrjV– Ross Simmonds (@TheCoolestCool) 4 juillet 2023
Pour les spécialistes du marketing et autres hommes d’affaires, il convient de réfléchir à la manière dont cela pourrait rendre possible davantage de types de contenu audio. Cela est particulièrement vrai pour les petites entreprises aux ressources limitées : vous pouvez peut-être désormais créer un podcast qui aurait été trop coûteux ou trop long auparavant.
Ce cas d’usage n’est pas sans controverse. Les critiques soulèvent des préoccupations éthiques concernant le consentement et la compensation et soutiennent que cela pourrait porter atteinte à la profession de doublage. Le risque de contrefaçon audio et d’utilisation abusive potentielle est également important, soulignant la nécessité de cadres réglementaires pour gérer ces technologies émergentes de manière responsable.
Une réponse aux risques de cette technologie est la licence vocale. Certains acteurs de la voix répondent à la menace qui pèse sur leur profession en accordant une licence pour que leurs voix soient utilisées comme clones d'IA vocale dans des services comme la bibliothèque vocale d'ElevenLabs. Ensuite, ils recevront des frais de licence chaque fois que quelqu'un utilisera leur voix.
Mais aux États-Unis, une voix elle-même n'est pas considérée comme pouvant être protégée par le droit d'auteur , mais uniquement des enregistrements vocaux spécifiques. Tout comme l'utilisation d'un chanteur « similaire » est un moyen légal d'imiter la voix d'une personne, la même chose peut s'appliquer aux sons deepfakes. Cela place le clonage vocal et l’octroi de licences dans une zone grise juridique, d’autant plus que la jurisprudence pertinente date de 1988. Seuls d’autres cas et l’adoption de lois comme la No AI Fraud Act pourront clarifier ce point.
IA audio pour la traduction et le doublage
L’Audio AI change également le secteur de la traduction et du doublage. Cette technologie peut créer une interprétation texte-voix et voix-voix, en s'efforçant d'imiter fidèlement le ton et l'émotion de l'orateur d'origine pour une expérience d'écoute plus authentique.
Cette publication virale sur les réseaux sociaux montre la capacité du doublage IA à briser les barrières linguistiques, même dans la musique :
Bro, je suis en fait en larmes au vers de Lil Yachtys️ pic.twitter.com/ZX6rqD0McE
– ₭ma (@KmaFr_) 20 février 2024
Ce doublage de l'anglais vers le chinois mandarin avait 1,7 million de vues au moment de sa publication. La plupart des personnes qui commentent le message ne parlent même pas la langue – ils sont simplement émerveillés par la technologie.
Mais malgré son potentiel, la traduction et le doublage IA comportent toujours des risques. Par exemple, cela ouvre la porte à une perte de nuances dans la traduction, ainsi qu’à une mauvaise interprétation culturelle. Cela soulève également une considération éthique concernant la reproduction de la voix d'une personne sans son consentement.
Il existe également le risque que des personnes le manipulent intentionnellement pour copier de manière incorrecte les mots réels de quelqu'un. Voici un exemple de personne créant une fausse vidéo de Morgan Freeman parlant, avec des résultats assez convaincants :
RUPTURE : La Commission électorale fédérale étudie la possibilité de réglementer les publicités politiques deepfake générées par l’IA avant les élections de 2024.
Pour ceux qui ne le savent pas, un deep fake est généralement un clip audio/vidéo créé par l'IA qui semble montrer un individu disant quelque chose ou… pic.twitter.com/7lmlNht4QP
– Ed Krassenstein (@EdKrassen) 11 août 2023
Garantir l'exactitude et respecter le droit des autres de choisir la manière dont leur voix est utilisée sont essentiels à mesure que cette technologie progresse. S’il est utilisé efficacement, il pourrait ouvrir un monde de possibilités, nous permettant de profiter de contenus autrefois inaccessibles et même de parler aux autres plus facilement qu’auparavant.
IA audio pour les assistants vocaux
Les assistants vocaux comme Siri, Alexa et Google Assistant sont déjà alimentés par l'IA audio, utilisant le traitement du langage naturel pour comprendre et répondre aux commandes de l'utilisateur. Ces assistants représentent une application importante de l’IA audio, à la fois reconnaissant et utilisant la parole pour interagir avec les utilisateurs.
Les assistants vocaux sont déjà populaires, puisque 62 % des adultes américains déclarent en utiliser un.
Avec l’amélioration de l’IA, il est probable qu’ils deviendront encore plus précis – et par conséquent plus populaires – à l’avenir. À mesure que ce nombre augmente, il deviendra de plus en plus important pour les entreprises d'optimiser leurs articles et autres contenus en ligne pour les recherches vocales.
Mais ils suscitent également certaines inquiétudes. Google a déjà été la cible d' un procès alléguant qu'il aurait enregistré et diffusé illégalement les conversations de personnes ayant activé leur assistant vocal par accident.
L'avenir de l'IA audio
Ces trois applications pour l’IA audio ne sont qu’un début.
Ne vous méprenez pas, la synthèse vocale, le doublage et les assistants vocaux sont des applications puissantes. Mais l’IA audio pourrait faire bien plus à l’avenir.
Voici trois domaines clés dans lesquels nous prévoyons une croissance :
Croissance de l'IA dans le service client
L’intégration de l’IA vocale dans le service client a le potentiel de révolutionner la façon dont les entreprises interagissent avec leurs clients. Les entreprises utilisent déjà des chatbots IA pour le service client, ce serait donc une extension naturelle de ce cas d'utilisation existant.
Par exemple, l'IA audio pourrait effectivement être capable de créer une version audio de cette interaction avec le chat du service client de H&M :
Grâce aux centres d’appels alimentés par l’IA, les entreprises seront en mesure de traiter un grand volume de demandes avec une meilleure efficacité, réduisant ainsi les temps d’attente et rationalisant l’expérience client.
En termes de fonctionnalités, nous prévoyons que l’IA audio sera capable de faire plus que simplement automatiser les réponses. À l’avenir, l’IA audio sera probablement capable d’analyser le ressenti des clients et d’adapter les interactions aux besoins individuels. Cela pourrait améliorer la qualité globale du service à des échelles qui seraient aujourd’hui prohibitives pour de nombreuses entreprises.
Dans ce cadre, l’analyse vocale de l’IA peut fournir un retour d’information en temps réel aux professionnels du service client : signaler la frustration ou la confusion des clients qui pourraient ne pas être ouvertement exprimées permettra une approche plus nuancée et empathique. Les outils d'IA comme Einstein de Salesforce peuvent déjà identifier les tendances communes dans les données clients. Ainsi, à l'avenir, l'IA audio pourra peut-être faire de même avec les enregistrements d'appels clients.
Voice AI pourrait également devenir le principal point de contact du client avec une entreprise. À l'heure actuelle, les entreprises utilisent des logiciels de reconnaissance vocale avec des réponses préenregistrées pour gérer les problèmes les plus courants des clients. Avec l’IA, ceux-ci pourraient s’intégrer plus naturellement dans une conversation avec le client.
Cependant, ce progrès technologique s’accompagne de défis. Les premiers problèmes liés à la mise en œuvre de l’IA dans le service client, tels que l’incapacité des chatbots à comprendre ou à répondre de manière appropriée aux requêtes complexes des clients, ont mis en évidence les limites des technologies d’IA actuelles.
En fait, un chatbot IA du service client a coûté de l’argent à une compagnie aérienne pour avoir fait des promesses sur sa politique de remboursement qui n’étaient pas vraies.
C’est une technologie avec laquelle les entreprises doivent être prudentes. Mais même si nous sommes encore loin d’un service client entièrement basé sur l’IA, nous pouvons déjà voir des entreprises s’orienter dans cette direction.
Croissance de l'IA dans les communications d'entreprise
Audio AI est sur le point de transformer le paysage professionnel, non seulement en automatisant les tâches de routine, telles que les communications internes quotidiennes et la paperasse, mais également en redéfinissant la nature du travail et de la collaboration au sein des organisations.
Par exemple, l’IA audio pourrait automatiser les premiers entretiens d’embauche pour un processus de sélection plus efficace. Cela permettra aux recruteurs de se concentrer sur les candidats qui répondent à des critères spécifiques en fonction de leurs réponses et contribuera à rationaliser le processus d'embauche. Cela réduirait également le risque de préjugés humains consistant à écarter à tort des candidats potentiels.
L'IA audio pourrait également aider aux communications internes, en traduisant les messages dans différentes langues en temps réel et en garantissant que les équipes mondiales restent sur la même longueur d'onde grâce à une technologie comme celle qu'ElevenLabs a déjà développée . Cela pourrait rendre la communication et la collaboration beaucoup plus faciles dans des environnements de travail de plus en plus diversifiés et dispersés.
En réunissant des personnes parlant différentes langues, l’IA audio permettra aux entreprises d’embaucher plus facilement d’excellentes personnes, quel que soit l’endroit où elles vivent ou la langue qu’elles parlent. Cela conduira à une plus grande diversité linguistique et géographique, et les communications internes deviendront simples, même entre des employés qui ne connaissent pas un mot de la langue maternelle de chacun.
Cependant, l’intégration de l’IA audio sur le lieu de travail n’est pas sans risques. Les préoccupations incluent le risque d'interprétation erronée lors des entretiens automatisés, où les nuances du discours ou les indices non verbaux pourraient être négligés. Le recours à l’IA pour les communications internes et les interactions avec les clients pourrait également entraîner la perte de la touche personnelle qui favorise les véritables liens entre les personnes.
Croissance de l'IA dans le divertissement
Le divertissement est un autre domaine dans lequel l’IA audio va probablement changer radicalement à l’avenir. Grâce à lui, les gens pourront créer de la nouvelle musique et des podcasts plus rapidement et plus facilement que jamais.
L'IA pilotée par l'audio aura une tonne de cas d'utilisation.
En voici quelques-uns (et je sais que certaines personnes les détesteront parce qu'ils suppriment l'élément *humain* de tant de choses) qui, je pense, vont tout changer :
– Livres audio créés avec des voix synthétiques
– Podcasts fonctionnant avec…– Ross Simmonds (@TheCoolestCool) 30 novembre 2023
Les outils basés sur l'IA pourraient également aider les créateurs de podcasts à automatiser de nombreux aspects de la production, comme dans l'exemple ci-dessous, réduisant ainsi les délais et les coûts de production.
️ Cas d'utilisation de podcast pour ChatGPT.
Demandez à l'IA de convertir et de fusionner des fichiers audio.
Ajoutez des intros/outros à un épisode. pic.twitter.com/u8DSqHUq5h-Troy Tessalone | Automatisation Ace ️ (@AutomationAce_) 27 octobre 2023
L’une des applications les plus intrigantes et controversées de l’IA audio est sa capacité à produire de la musique dans le style d’artistes existants ou passés. Des projets comme Jukebox d'OpenAI , qui génère de la musique dans différents styles à partir de zéro, illustrent à la fois le potentiel et les limites actuelles de l'IA dans les processus créatifs.
Bien que les résultats soient impressionnants pour une technologie aussi précoce, ils n’ont pas la profondeur émotionnelle et la complexité de la musique créée par des artistes humains. Même si cela pourrait changer la donne à l’avenir, cela ne remplace pas encore les artistes humains.
À l’avenir, l’IA pourrait aider les artistes en leur permettant d’explorer de nouveaux genres, styles ou concepts sans investir de jours de travail. Cela pourrait servir de « preuve de concept » pour un artiste qui hésite sur une idée.
Cela pourrait également aider les podcasteurs en automatisant les voix off et en générant des effets sonores et de la musique de fond, une fois ces capacités développées.
Les réglementations sont en retard par rapport aux applications dans ce domaine, bien qu'Universal Music Group ait réussi à supprimer une chanson générée par l'IA imitant une collaboration entre Drake et The Weeknd.
Des problèmes éthiques et juridiques surviennent également lorsque l’IA est utilisée pour imiter les voix ou les styles d’artistes existants et passés. Le débat sur les sorties posthumes et l’authenticité des œuvres créées par l’IA souligne la nécessité de lignes directrices claires et de normes éthiques concernant l’utilisation de l’IA dans le divertissement.
Les applications d'Audio AI avec le divertissement feront rencontrer la technologie et la créativité. À mesure que la technologie de l’IA mûrit et devient plus nuancée dans sa compréhension et sa reproduction de la créativité humaine, elle continuera à surmonter les limites actuelles, ouvrant à la fois de nouveaux horizons aux artistes et de nouveaux risques à surmonter.
Comment se préparer aux nouvelles et futures utilisations de l'IA audio
Voici quatre étapes principales que vous pouvez suivre pour réussir avec l’IA audio.
1. Considérations éthiques et élaboration de politiques
Les entreprises doivent adopter des politiques claires et éthiques pour l’utilisation de l’IA audio, en privilégiant la transparence avec les utilisateurs.
Si vous utilisez une voix IA basée sur la voix de quelqu'un d'autre que la vôtre, assurez-vous d'abord d'avoir sa permission. Si l'IA communique avec un client, assurez-vous que ce dernier sait qu'il ne s'agit pas d'une personne vivante.
Vous devez également créer des mesures de sécurité pour empêcher l’accès et l’utilisation non autorisés de toutes les données vocales dont vous disposez. Cela signifie créer des contrôles d'accès stricts sur qui peut utiliser les données et suivre les meilleures pratiques de chiffrement .
Vos politiques devront également aborder le risque de mauvais comportement, en veillant à ce que vous disposiez d'un processus pour gérer toute IA qui dit quelque chose qui ne fait pas partie des politiques de votre entreprise, comme dans l'exemple précédent de la compagnie aérienne.
2. Investissement dans la maîtrise de l'IA audio
Pour investir dans la maîtrise de l’IA audio, les entreprises peuvent donner la priorité aux programmes d’éducation et de formation de leurs équipes sur le fonctionnement, le potentiel et les limites des technologies d’IA audio.
Pour ce faire, créez ou investissez dans des ateliers, des séminaires et des cours en ligne pour améliorer la compréhension entre les employés à tous les niveaux, du personnel technique aux décideurs.
Chez Foundation, nous y parvenons en offrant aux employés de multiples possibilités de développement professionnel, par exemple en couvrant les frais de participation aux cours des employés. D'autres entreprises peuvent le faire grâce à des initiatives de mentorat ou d'éducation par les pairs.
Cette éducation peut aider à démystifier l’IA, en créant un environnement dans lequel chacun peut prendre des décisions éclairées et stratégiques sur la manière de l’utiliser de manière éthique et efficace.
3. Expérimentation et collaboration
Si vous avez suivi les deux premiers points, vous avez déjà créé des lignes directrices sur la manière dont les gensdoiventutiliser l'IA et une formation sur la manière del'utiliser. Désormais, vous devez favoriser un environnement dans lequel ils se sentent libres d’innover. De cette façon, ils l’utiliserontau maximum de son potentiel.
Contrairement aux startups, où l’incitation à innover vient de l’environnement entrepreneurial, une grande entreprise doit concevoir ses environnements et ses structures pour inspirer les gens.
– Walter T. Rambwi (@hr_taurai) 18 octobre 2021
Les partenariats entre ingénieurs et personnes d’autres départements peuvent être fructueux ici, en aidant les gens à voir comment l’IA audio peut aider à résoudre les problèmes existants.
Vous pouvez même en faire un projet de votre service RH, en encourageant une culture globale de collaboration et en créant des journées interministérielles où les gens peuvent partager ensemble ce qu'ils ont appris sur l'IA.
4. Adapter les modèles commerciaux
À mesure que les capacités de l’IA audio évoluent, votre modèle commercial devrait également évoluer. Vous pouvez adopter l’IA audio de plusieurs manières, par exemple :
- Utiliser ses capacités de création de contenu et de divertissement pour expérimenter de nouvelles formes de marketing de contenu
- En tirer parti pour une communication plus efficace au sein d’une main-d’œuvre mondiale
- L'utiliser dans le service client pour plus d'efficacité et d'évolutivité
Pour commencer à le faire à mesure que la technologie évolue, mettez en place un système de projets pilotes pour tester les applications d’IA audio. Vous devez prêter attention aux domaines dans lesquels il existe le plus grand potentiel de valeur pour votre entreprise, comme l'analyse des données clients pour personnaliser les interactions.
Cette approche vous aidera à rester compétitif et pertinent dans un paysage technologique en constante évolution et qui adopte l'IA.
Restez à la pointe des avancées technologiques et de l’IA
L'IA audio est déjà là, et elle ne fait que devenir plus avancée. Cela change la façon dont nous créons, doublons et recherchons du contenu. À l'avenir, ses applications ne feront que devenir plus variées, aidant les entreprises à améliorer leur service client, leurs communications internes et leurs produits de divertissement.
C'est pourquoi nous expliquons comment les organisations marketing les plus avancées en matière de technologie innovent et gardent une longueur d'avance.
Intéressé? Vous pouvez accéder à notre bibliothèque complète d'études de cas et de ventilations ici .