音频驱动的人工智能：音频人工智能的未来

已发表: 2024-03-20

文章内容

音频人工智能正在改变我们创建和消费内容的方式。它已经是一个价值 40 亿美元的行业，预计到本十年末，其价值将增加两倍。

但音频人工智能的现状到底是什么样的？这个年轻的行业正在发生怎样的变化？

我们正在分析已经存在的音频人工智能工具类型、营销人员和企业如何开始使用它们，以及有关行业发展方向的一些令人兴奋的指标。

准备好听一些机器人说话了吗？让我们开始吧。

音频 AI 的现状

音频 AI 利用人工智能发出声音和语音。

该行业的产品包括将文本转换为语音的工具、创建用于配音的语音副本以及为可以模仿人类语调和节奏的语音助手提供支持。 ElevenLabs和Resemble AI等工具已经能够制作高质量、逼真的音频内容。

以下是人们已经使用这种突破性技术的三种方式。

面向创作者的音频 AI

音频人工智能正在改变内容创作，尤其是有声读物和播客等内容类型。创作者现在可以选择使用合成声音，它可以复制人类的语调和情感，从而无需传统的录音设置。这可以帮助他们节省生产成本和时间。

看看这个由基金会首席执行官罗斯·西蒙兹 (Ross Simmonds) 创建的视频——音频和视频人工智能的结合。他原本需要花费几个小时（坐下来编写脚本、录制和编辑）的事情，他在几分钟内就能完成。

周末实验：
仅使用 AI 创建我的视频。
这是结果。
当然。它需要工作。但已经很接近了……
如何？
1）人工智能使用旧的播客录音重建了我的声音。
2）AI使用了我的旧博文作为脚本。
3）人工智能使用了旧视频中的屏幕截图…… pic.twitter.com/xmuRUotrjV

— 罗斯·西蒙兹 (@TheCoolestCool) 2023 年 7 月 4 日

对于营销人员和其他商人来说，值得考虑的是这如何使更多类型的音频内容成为可能。对于资源有限的小型企业来说尤其如此——也许现在您可以制作一个以前过于昂贵或耗时的播客。

这个用例并非没有争议。批评者提出了有关同意和补偿的道德担忧，并认为这可能会损害配音职业。深度伪造音频和潜在滥用的风险也日益凸显，凸显了监管框架需要负责任地管理这些新兴技术。

针对该技术风险的一种应对措施是语音许可。一些配音演员通过许可他们的声音在 ElevenLabs 语音库等服务中用作语音 AI 克隆来应对对其职业的威胁。然后，每当有人使用他们的声音时，他们都会获得许可费。

但在美国，声音本身并不被视为受版权保护，只是特定的录音。正如使用“声音相似”的歌手是模仿人的声音的合法方式一样，这同样适用于深度伪造音频。这将声音克隆和许可置于法律灰色地带，特别是因为相关判例法是 1988 年的。只有更多案例和《禁止人工智能欺诈法案》等法律的通过才能澄清这一点。

用于翻译和配音的音频 AI

音频人工智能也正在改变翻译和配音行业。该技术可以创建文本到语音和语音到语音的解释，力求紧密模仿原始说话者的语气和情感，以获得更真实的聆听体验。

这篇在社交媒体上疯传的帖子展示了人工智能配音甚至在音乐领域也能打破语言障碍：

兄弟，我真的在 Lil Yachtys 的诗句中流泪了️ pic.twitter.com/ZX6rqD0McE

- ₭ma (@KmaFr_) 2024 年 2 月 20 日

这段从英语到普通话的配音在发布时已有 170 万次观看。大多数评论这篇文章的人甚至不会说这种语言——他们只是对这项技术感到惊讶。

但尽管人工智能翻译和配音具有潜力，但仍然存在风险。例如，它为翻译中细微差别的丧失以及文化误解打开了大门。它还提出了在未经他人同意的情况下复制他人声音的道德考虑。

还有一种风险是人们故意操纵它来错误地配音某人的实际话语。以下是某人制作摩根·弗里曼演讲的虚假视频的示例，其结果相当令人信服：

突发新闻：联邦选举委员会正在研究在 2024 年大选之前监管人工智能生成的深度造假政治广告的可能性。
对于那些不知道的人来说，深度造假通常是人工智能创建的音频剪辑/视频，似乎显示一个人在说些什么或…… pic.twitter.com/7lmlNht4QP

— Ed Krassenstein (@EdKrassen) 2023 年 8 月 11 日

随着这项技术的进步，确保准确性并尊重他人选择如何使用其声音的权利至关重要。如果有效使用，它可以打开一个充满可能性的世界，让我们能够享受以前无法访问的内容，甚至比以前更轻松地与他人交谈。

语音助手的音频 AI

Siri、Alexa 和 Google Assistant 等语音助手已经由音频 AI 提供支持，使用自然语言处理来理解和响应用户命令。这些助手代表了音频人工智能的重要应用，可以识别语音并使用语音与用户交互。

语音助手已经很受欢迎， 62% 的美国成年人表示他们使用语音助手。

随着人工智能的进步，未来它们可能只会变得更加准确，从而更受欢迎。随着这个数字的上升，对于企业来说，优化其文章和其他在线内容以进行语音搜索将变得更加重要。

但他们也存在一些担忧。谷歌已经成为诉讼的目标，指控他们非法记录和分发意外激活语音助手的人的对话。

音频人工智能的未来

音频人工智能的这三个应用仅仅是一个开始。

不要误会我的意思，文本转语音、配音和语音助手都是功能强大的应用程序。但音频人工智能未来还可以做更多的事情。

以下是我们预测增长的三个关键领域：

客户服务中的人工智能增长

将语音人工智能集成到客户服务中可能会彻底改变企业与客户互动的方式。公司已经在使用人工智能聊天机器人进行客户服务，因此这将是现有用例的自然延伸

例如，音频 AI 可以有效地创建与 H&M 客户服务聊天交互的音频版本：

借助人工智能支持的呼叫中心，公司将能够以更高的效率处理大量查询，减少等待时间并简化客户体验。

就功能而言，我们预测音频人工智能将能够做的不仅仅是自动响应。未来，音频人工智能可能能够分析客户情绪并根据个人需求定制交互。这可以提高整体服务质量，而这对当今许多企业来说成本高昂。

作为其中的一部分，人工智能语音分析可以向客户服务专业人员提供实时反馈——指出客户可能没有公开表达的沮丧或困惑，从而采取更细致、更富同理心的方法。 Salesforce 的 Einstein等人工智能工具已经可以识别客户数据的常见趋势，因此未来，音频人工智能可能能够对客户通话录音执行相同的操作。

语音人工智能还可以成为客户与公司的主要联系点。目前，公司使用带有预先录制响应的语音识别软件来处理客户最常见的问题。借助人工智能，这些可以更自然地融入到与客户的对话中。

然而，这种技术飞跃也伴随着挑战。在客户服务中实施人工智能的早期问题，例如聊天机器人无法理解或适当响应复杂的客户查询，凸显了当前人工智能技术的局限性。

事实上，一个客户服务人工智能聊天机器人因做出不真实的退款政策承诺而让航空公司损失了金钱。

这是企业必须小心的技术。虽然我们距离完全由人工智能驱动的客户服务可能还有很长的路要走，但我们已经可以看到公司正在朝这个方向迈进。

商业通信中的人工智能增长

音频人工智能将改变专业领域，不仅通过自动化日常任务（例如日常内部通信和文书工作），而且还通过重新定义组织内的工作和协作的性质。

例如，音频人工智能可以自动化早期招聘面试，以实现更高效的筛选过程。这将使招聘人员能够根据候选人的回答重点关注符合特定标准的候选人，并有助于简化招聘流程。它还将减少人为偏见错误地低估潜在候选人的可能性。

音频 AI 还可以帮助内部通信，将消息实时翻译成各种语言，并通过ElevenLabs 已经开发的技术确保全球团队保持一致。这可以使在日益多样化和分散的工作环境中的沟通和协作变得更加容易。

通过将讲不同语言的人聚集在一起，音频人工智能将使公司更容易雇用优秀的人才，无论他们住在哪里或说什么语言。这将带来更多的语言和地理多样性，即使在不懂彼此母语的员工之间，内部沟通也将变得简单。

然而，将音频人工智能融入工作场所并非没有风险。人们担心的问题包括在自动采访中可能会出现误解，其中语音或非语言线索的细微差别可能会被忽视。依赖人工智能进行内部通信和客户互动也可能导致失去促进人与人之间真正联系的个人风格。

人工智能在娱乐领域的发展

娱乐是音频人工智能未来可能发生巨大变化的另一个领域。有了它，人们将能够比以往更快、更轻松地创作新音乐和播客。

音频驱动的人工智能将有大量的用例。
这里有一些（我知道有些人会讨厌这些，因为他们从很多事情中去掉了“人类”元素），我认为它们会改变一切：
– 用合成声音创建的有声读物
– 播客运行...
— 罗斯·西蒙兹 (@TheCoolestCool) 2023 年 11 月 30 日

人工智能驱动的工具还可以帮助播客创作者实现生产的许多方面的自动化，如下例所示，从而减少生产时间和成本。

️ ChatGPT 的播客用例。
让 AI 转换和合并音频文件。
为剧集添加片头/片尾。 pic.twitter.com/u8DSqHUq5h
— 特洛伊·泰萨龙 | 自动化王牌️ (@AutomationAce_) 2023 年 10 月 27 日

音频人工智能最有趣和最有争议的应用之一是它能够以现有或过去艺术家的风格制作音乐。像OpenAI 的 Jukebox这样的项目可以从头开始生成各种风格的音乐，这说明了人工智能在创作过程中的潜力和当前局限性。

虽然这种早期技术的成果令人印象深刻，但它们缺乏人类艺术家创作的音乐的情感深度和复杂性。虽然这可能会在未来改变游戏规则，但它还不能取代人类艺术家。

未来，人工智能可以帮助艺术家探索新的流派、风格或概念，而无需投入数天的工作。它可以作为对某个想法持观望态度的艺术家的“概念证明”。

一旦这些功能得到开发，它还可以通过自动配音并生成背景音效和音乐来帮助播客。

尽管环球音乐集团成功下架了一首模仿 Drake 和 The Weeknd 合作的人工智能生成歌曲，但在这方面法规还是落后于应用程序。

当人工智能被用来模仿现有和过去艺术家的声音或风格时，也会出现道德和法律问题。关于死后发行和人工智能创作作品真实性的争论强调了在娱乐中使用人工智能时需要制定明确的指导方针和道德标准。

音频AI与娱乐的应用，将让科技与创意相遇。随着人工智能技术的成熟，以及对人类创造力的理解和复制变得更加细致，它将继续克服当前的局限性，为艺术家开辟新的视野，并克服新的风险。

如何为新的和未来的音频人工智能用途做好准备

您可以采取以下四个主要步骤，为自己在音频人工智能方面取得成功做好准备。

1. 道德考虑和政策制定

公司需要针对使用音频人工智能采取明确、道德的政策，优先考虑对用户的透明度。

如果您使用基于除您自己之外的其他人的声音的人工智能语音，请确保您首先获得他们的许可。如果人工智能正在与客户交流，请确保客户知道它不是活人。

您还应该制定安全措施，以防止未经授权的访问和使用您拥有的任何语音数据。这意味着对谁可以使用数据创建严格的访问控制并遵循加密最佳实践。

您的政策还需要解决潜在的不当行为，确保您有一个流程来处理任何不符合公司政策范围的人工智能，例如前面的航空公司示例。

2. 音频人工智能素养投资

为了投资音频人工智能素养，公司可以优先为其团队提供有关音频人工智能技术的工作原理、潜力和局限性的教育和培训计划。

为此，创建或投资研讨会、研讨会和在线课程，以增强从技术人员到决策者的各级员工之间的理解。

在 Foundation，我们通过为员工提供多种职业发展途径来做到这一点，例如支付员工上课的费用。其他公司可能会通过指导或同伴教育举措来做到这一点。

这种教育可以帮助揭开人工智能的神秘面纱，创造一个环境，让每个人都可以就如何合乎道德和有效地使用人工智能做出明智的战略决策。

3. 实验与合作

如果您遵循了前两点，那么您已经创建了人们应如何使用人工智能的指南，并就如何使用人工智能进行了教育。现在，您应该营造一个让他们可以自由创新的环境。这样，他们就能最大限度地发挥它的潜力。

与初创公司不同的是，创新的刺激来自创业环境，大公司需要设计其环境和结构来激励人们。
— Walter T. Rambwi (@hr_taurai) 2021 年 10 月 18 日

工程师和其他部门的人员之间的合作可以在这里取得丰硕成果，帮助人们了解音频人工智能如何帮助解决现有问题。

您甚至可以将其作为人力资源部门的一个项目，鼓励整体协作文化并创建跨部门日，让人们可以共同分享他们所学到的人工智能知识。

4. 调整商业模式

随着音频人工智能功能的发展，您的商业模式也应该随之发展。您可以通过多种方式拥抱音频 AI，例如：

利用其内容创作和娱乐能力来尝试新的内容营销形式
利用它在全球员工队伍中实现更有效的沟通
在客户服务中使用它来提高效率和可扩展性

随着技术的成熟，要开始这样做，需要建立一个试点项目系统来测试音频人工智能应用程序。您应该特别关注对您的公司具有最大潜在价值的领域，例如分析客户数据以实现个性化交互。

这种方法将帮助您在不断变化和拥抱人工智能的技术环境中保持竞争力和相关性。

保持技术和人工智能进步的前沿

音频人工智能已经到来，而且只会变得更加先进。它正在改变我们创建、配音和搜索内容的方式。未来，它的应用只会变得更加多样化，帮助企业改善客户服务、内部通信和娱乐产品。

这就是为什么我们详细分析了科技领域最先进的营销组织如何创新并保持领先地位。

感兴趣的？您可以在此处访问我们完整的案例研究和细分库。