音訊驅動的人工智慧：音訊人工智慧的未來

已發表: 2024-03-20

文章內容

音訊人工智慧正在改變我們創建和消費內容的方式。它已經是一個價值 40 億美元的行業，預計到本十年末，價值將增加兩倍。

但音頻人工智慧的現狀到底是什麼樣的？這個年輕的產業正在發生怎樣的變化？

我們正在分析已經存在的音訊人工智慧工具類型、行銷人員和企業如何開始使用它們，以及有關行業發展方向的一些令人興奮的指標。

準備好聽一些機器人說話了嗎？讓我們開始吧。

音訊 AI 的現狀

音訊 AI 利用人工智慧發出聲音和語音。

該行業的產品包括將文字轉換為語音的工具、創建用於配音的語音副本以及為可以模仿人類語調和節奏的語音助理提供支援。 ElevenLabs和Resemble AI等工具已經能夠製作高品質、逼真的音訊內容。

以下是人們已經使用這種突破性技術的三種方式。

面向創作者的音訊 AI

音訊人工智慧正在改變內容創作，尤其是有聲書和播客等內容類型。創作者現在可以選擇使用合成聲音，它可以複製人類的語調和情感，從而無需傳統的錄音設定。這可以幫助他們節省生產成本和時間。

看看這個由基金會首席執行官羅斯·西蒙茲 (Ross Simmonds) 創建的視頻——音頻和視頻人工智能的結合。他原本需要花費幾個小時（坐下來編寫腳本、錄製和編輯）的事情，他在幾分鐘內就能完成。

週末實驗：
僅使用 AI 創建我的影片。
這是結果。
當然。它需要工作。但已經很接近了…
如何？
1）人工智慧使用舊的播客錄音重建了我的聲音。
2）AI使用了我的舊博文作為腳本。
3）人工智慧使用了舊影片中的螢幕截圖…pic.twitter.com/xmuRUotrjV

— 羅斯‧西蒙茲 (@TheCoolestCool) 2023 年 7 月 4 日

對於行銷人員和其他商人來說，值得考慮的是這如何使更多類型的音訊內容成為可能。對於資源有限的小型企業來說尤其如此——也許現在您可以製作一個以前太昂貴或耗時的播客。

這個用例並非沒有爭議。批評者提出了有關同意和補償的道德擔憂，並認為這可能會損害配音職業。深度偽造音訊和潛在濫用的風險也日益凸顯，凸顯了監管框架需要負責任地管理這些新興技術。

針對該技術風險的一種應對措施是語音許可。一些配音演員透過授權他們的聲音在 ElevenLabs 語音庫等服務中用作語音 AI 克隆來應對對其職業的威脅。然後，每當有人使用他們的聲音時，他們都會獲得許可費。

但在美國，聲音本身並不被視為受版權保護，只是特定的錄音。正如使用「聲音相似」的歌手是模仿人的聲音的合法方式一樣，這同樣適用於深度偽造音訊。這將聲音克隆和許可置於法律灰色地帶，特別是因為相關判例法是 1988 年的。只有更多案例和《禁止人工智慧詐欺法案》等法律的通過才能澄清這一點。

用於翻譯和配音的音訊 AI

音頻人工智慧也正在改變翻譯和配音行業。這項技術可以創造出文字轉語音和語音到語音的解釋，力求緊密模仿原始說話者的語氣和情感，以獲得更真實的聆聽體驗。

這篇在社群媒體上瘋傳的貼文展示了人工智慧配音甚至在音樂領域也能打破語言障礙：

兄弟，我真的在 Lil Yachtys 的詩句中流淚了️ pic.twitter.com/ZX6rqD0McE

- ₭ma (@KmaFr_) 2024 年 2 月 20 日

這段從英語到普通話的配音在發佈時已有 170 萬次觀看。大多數評論這篇文章的人甚至不會說這種語言——他們只是對這項技術感到驚訝。

但儘管人工智慧翻譯和配音具有潛力，但仍存在風險。例如，它為翻譯中細微差別的喪失以及文化誤解打開了大門。它還提出了在未經他人同意的情況下複製他人聲音的道德考慮。

還有一種風險是人們故意操縱它來錯誤地配音某人的實際話語。以下是某人製作摩根費里曼演講的虛假影片的範例，其結果相當令人信服：

突發新聞：聯邦選舉委員會正在研究在 2024 年大選之前監管人工智慧產生的深度造假政治廣告的可能性。
對於那些不知道的人來說，深度造假通常是人工智慧創建的音頻剪輯/視頻，似乎顯示一個人在說些什麼或… pic.twitter.com/7lmlNht4QP

— Ed Krassenstein (@EdKrassen) 2023 年 8 月 11 日

隨著這項技術的進步，確保準確性並尊重他人選擇如何使用其聲音的權利至關重要。如果有效使用，它可以打開一個充滿可能性的世界，讓我們能夠享受以前無法訪問的內容，甚至比以前更輕鬆地與他人交談。

語音助理的音訊 AI

Siri、Alexa 和 Google Assistant 等語音助理已經由音訊 AI 提供支持，使用自然語言處理來理解和回應用戶命令。這些助手代表了音訊人工智慧的重要應用，可以識別語音並使用語音與用戶互動。

語音助理已經很受歡迎， 62% 的美國成年人表示他們使用語音助理。

隨著人工智慧的進步，未來它們可能只會變得更加準確，從而更受歡迎。隨著這個數字的上升，對於企業來說，優化其文章和其他線上內容以進行語音搜尋將變得更加重要。

但他們也存在一些擔憂。谷歌已經成為訴訟的目標，指控他們非法記錄和分發意外激活語音助理的人的對話。

音頻人工智慧的未來

音頻人工智慧的這三個應用只是一個開始。

不要誤會我的意思，文字轉語音、配音和語音助理都是功能強大的應用程式。但音頻人工智慧未來還可以做更多的事情。

以下是我們預測成長的三個關鍵領域：

客戶服務中的人工智慧成長

將語音人工智慧整合到客戶服務中可能會徹底改變企業與客戶互動的方式。該公司已經在使用人工智慧聊天機器人進行客戶服務，因此這將是現有用例的自然延伸

例如，音訊 AI 可以有效地創建與 H&M 客戶服務聊天互動的音訊版本：

借助人工智慧支援的呼叫中心，公司將能夠以更高的效率處理大量查詢，減少等待時間並簡化客戶體驗。

就功能而言，我們預測音訊人工智慧將能夠做的不僅僅是自動回應。未來，音訊人工智慧可能能夠分析客戶情緒並根據個人需求量身定制互動。這可以提高整體服務質量，而這對當今許多企業來說成本高昂。

作為其中的一部分，人工智慧語音分析可以向客戶服務專業人員提供即時回饋——指出客戶可能沒有公開表達的沮喪或困惑，從而採取更細緻、更富同理心的方法。 Salesforce 的 Einstein等人工智慧工具已經可以識別客戶資料的常見趨勢，因此未來，音訊人工智慧可能能夠對客戶通話錄音執行相同的操作。

語音人工智慧還可以成為客戶與公司的主要聯繫點。目前，該公司使用預先錄製回應的語音辨識軟體來處理客戶最常見的問題。借助人工智慧，這些可以更自然地融入與客戶的對話中。

然而，這種技術飛躍也伴隨著挑戰。在客戶服務中實施人工智慧的早期問題，例如聊天機器人無法理解或適當地回應複雜的客戶查詢，凸顯了當前人工智慧技術的限制。

事實上，一個客戶服務人工智慧聊天機器人因做出不真實的退款政策承諾而讓航空公司損失了金錢。

這是企業必須小心的技術。雖然我們距離完全由人工智慧驅動的客戶服務可能還有很長的路要走，但我們已經可以看到公司正在朝這個方向邁進。

商業通訊中的人工智慧成長

音訊人工智慧將改變專業領域，不僅透過自動化日常任務（例如日常內部通訊和文書工作），而且還透過重新定義組織內的工作和協作的性質。

例如，音訊人工智慧可以自動化早期招募面試，以實現更有效率的篩選過程。這將使招募人員能夠根據候選人的回答重點關注符合特定標準的候選人，並有助於簡化招募流程。它還將減少人為偏見錯誤地低估潛在候選人的可能性。

音訊 AI 還可以幫助內部通信，將訊息即時翻譯成各種語言，並透過ElevenLabs 已經開發的技術確保全球團隊保持一致。這可以使在日益多樣化和分散的工作環境中的溝通和協作變得更加容易。

透過將講不同語言的人聚集在一起，音訊人工智慧將使公司更容易僱用優秀的人才，無論他們住在哪裡或說什麼語言。這將帶來更多的語言和地理多樣性，即使在不懂彼此母語的員工之間，內部溝通也將變得簡單。

然而，將音訊人工智慧融入工作場所並非沒有風險。人們擔心的問題包括在自動訪談中可能會出現誤解，其中語音或非語言線索的細微差別可能會被忽略。依賴人工智慧進行內部溝通和客戶互動也可能導致失去促進人與人之間真正聯繫的個人風格。

人工智慧在娛樂領域的發展

娛樂是音訊人工智慧未來可能發生巨大變化的另一個領域。有了它，人們將能夠比以往更快、更輕鬆地創作新音樂和播客。

音訊驅動的人工智慧將有大量的用例。
這裡有一些（我知道有些人會討厭這些，因為他們從很多事情中去掉了“人類”元素），我認為它們會改變一切：
– 以合成聲音創造的有聲書
– 播客運行...
— 羅斯·西蒙茲 (@TheCoolestCool) 2023 年 11 月 30 日

人工智慧驅動的工具還可以幫助播客創作者實現生產的許多方面的自動化，如下例所示，從而減少生產時間和成本。

️ ChatGPT 的播客用例。
讓 AI 轉換和合併音訊檔案。
為劇集添加片頭/片尾。 pic.twitter.com/u8DSqHUq5h
— 特洛伊·泰薩龍 | 自動化王牌️ (@AutomationAce_) 2023 年 10 月 27 日

音頻人工智慧最有趣和最具爭議的應用之一是它能夠以現有或過去藝術家的風格製作音樂。像OpenAI 的 Jukebox這樣的計畫可以從頭開始產生各種風格的音樂，這說明了人工智慧在創作過程中的潛力和當前限制。

雖然這種早期技術的成果令人印象深刻，但它們缺乏人類藝術家創作的音樂的情感深度和複雜性。雖然這可能會在未來改變遊戲規則，但它還不能取代人類藝術家。

未來，人工智慧可以幫助藝術家探索新的流派、風格或概念，而無需投入數天的工作。它可以作為對某個想法持觀望態度的藝術家的「概念證明」。

一旦這些功能得到開發，它還可以透過自動配音並產生背景音效和音樂來幫助播客。

儘管環球音樂集團成功下架了一首模仿 Drake 和 The Weeknd 合作的人工智慧生成歌曲，但在這方面法規還是落後於應用程式。

當人工智慧被用來模仿現有和過去藝術家的聲音或風格時，也會出現道德和法律問題。關於死後發行和人工智慧創作作品真實性的爭論強調了在娛樂中使用人工智慧時需要製定明確的指導方針和道德標準。

音頻AI與娛樂的應用，將讓科技與創意相遇。隨著人工智慧技術的成熟，以及對人類創造力的理解和複製變得更加細緻，它將繼續克服當前的局限性，為藝術家開闢新的視野，並克服新的風險。

如何為新的和未來的音頻人工智慧用途做好準備

您可以採取以下四個主要步驟，為自己在音訊人工智慧方面取得成功做好準備。

1. 道德考量與政策制定

公司需要針對使用音訊人工智慧採取明確、道德的政策，並優先考慮對使用者的透明度。

如果您使用基於您自己以外的其他人的聲音的人工智慧語音，請確保您首先獲得他們的許可。如果人工智慧正在與客戶交流，請確保客戶知道它不是活人。

您還應該制定安全措施，以防止未經授權的存取和使用您擁有的任何語音資料。這意味著對誰可以使用資料建立嚴格的存取控制並遵循加密最佳實踐。

您的政策還需要解決潛在的不當行為，確保您有一個流程來處理任何不符合公司政策範圍的人工智慧，例如前面的航空公司範例。

2. 音頻人工智慧素養投資

為了投資音頻人工智慧素養，公司可以優先為其團隊提供有關音頻人工智慧技術的工作原理、潛力和局限性的教育和培訓計劃。

為此，創建或投資研討會、研討會和線上課程，以增強從技術人員到決策者的各級員工之間的理解。

在 Foundation，我們透過為員工提供多種職涯發展途徑來做到這一點，例如支付員工上課的費用。其他公司可能會透過指導或同儕教育措施來做到這一點。

這種教育可以幫助揭開人工智慧的神秘面紗，創造一個環境，讓每個人都可以就如何合乎道德和有效地使用人工智慧做出明智的策略決策。

3. 實驗與合作

如果您遵循了前兩點，那麼您已經創建了人們應如何使用人工智慧的指南，並就如何使用人工智慧進行了教育。現在，您應該創造一個讓他們可以自由創新的環境。這樣，他們就能最大限度地發揮它的潛能。

與新創公司不同的是，創新的刺激來自創業環境，大公司需要設計其環境和結構來激勵人們。
— Walter T. Rambwi (@hr_taurai) 2021 年 10 月 18 日

工程師和其他部門的人員之間的合作可以在這裡取得豐碩成果，幫助人們了解音訊人工智慧如何幫助解決現有問題。

您甚至可以將其作為人力資源部門的項目，鼓勵整體協作文化並創建跨部門日，讓人們可以共同分享他們所學到的人工智慧知識。

4. 調整商業模式

隨著音訊人工智慧功能的發展，您的商業模式也應該隨之發展。您可以透過多種方式擁抱音訊 AI，例如：

利用其內容創作和娛樂能力來嘗試新的內容行銷形式
利用它在全球員工隊伍中實現更有效的溝通
在客戶服務中使用它來提高效率和可擴展性

隨著技術的成熟，要開始這樣做，需要建立一個試點專案系統來測試音訊人工智慧應用。您應該特別關注對您的公司具有最大潛在價值的領域，例如分析客戶資料以實現個人化互動。

這種方法將幫助您在不斷變化和擁抱人工智慧的技術環境中保持競爭力和相關性。

保持技術和人工智慧進步的前沿

音訊人工智慧已經到來，而且只會變得更加先進。它正在改變我們創建、配音和搜尋內容的方式。未來，它的應用只會變得更加多樣化，幫助企業改善客戶服務、內部通訊和娛樂產品。

這就是為什麼我們詳細分析了科技領域最先進的行銷組織如何創新並保持領先地位。

感興趣的？您可以在此處訪問我們完整的案例研究和細分庫。