Sztuczna inteligencja sterowana dźwiękiem: jaka przyszłość czeka audio AI

Opublikowany: 2024-03-20

Treść artykułu

Audio AI zmienia sposób, w jaki tworzymy i konsumujemy treści. Jest to już branża warta 4 miliardy dolarów , a według przewidywań do końca dekady jej wartość potroi się.

Jak jednak naprawdę wygląda obecny stan audio AI i jak zmienia się ta młoda branża?

Omawiamy, jakie rodzaje narzędzi audio AI już istnieją, jak marketerzy i firmy mogą zacząć z nich korzystać już dziś, a także przedstawiamy ekscytujące wskaźniki pokazujące, w jakim kierunku zmierza branża.

Gotowy, aby usłyszeć rozmowę robotów? Zacznijmy.

Obecny krajobraz audio AI

Audio AI wytwarza dźwięki i mowę za pomocą sztucznej inteligencji .

Produkty w tej branży obejmują narzędzia do przekształcania tekstu na mowę, tworzenia replik głosu do dubbingu oraz zasilania asystentów głosowych, które mogą imitować ludzki ton i rytm. Narzędzia takie jak ElevenLabs i Resemble AI mają już możliwość tworzenia wysokiej jakości, realistycznych treści audio.

Oto trzy sposoby, w jakie ludzie już korzystają z tej przełomowej technologii.

Audio AI dla twórców

Audio AI zmienia tworzenie treści, szczególnie jeśli chodzi o takie typy treści, jak audiobooki i podcasty. Twórcy mają teraz możliwość korzystania z głosów syntetycznych, które mogą odwzorowywać ludzką intonację i emocje, eliminując potrzebę stosowania tradycyjnych konfiguracji nagrywania. Może to pomóc im zaoszczędzić na kosztach i czasie produkcji.

Wystarczy spojrzeć na ten film — połączenie sztucznej inteligencji audio i wideo — stworzony przez dyrektora generalnego Fundacji, Rossa Simmondsa. To, co mogło zająć mu godziny (siadanie, pisanie scenariusza, nagrywanie i edytowanie), udało mu się zrobić w ciągu kilku minut.

Weekendowy eksperyment:
Utwórz film ze mną za pomocą samej sztucznej inteligencji.
Oto wynik.
Jasne. To wymaga pracy. Ale to już całkiem blisko…
JAK?
1) AI zrekonstruowała mój głos, korzystając ze starych nagrań podcastów.
2) AI użyła mojego starego wpisu na blogu jako skryptu.
3) AI użyła zrzutu ekranu ze starego filmu… pic.twitter.com/xmuRUotrjV

— Ross Simmonds (@TheCoolestCool) 4 lipca 2023 r

Marketerzy i inni przedsiębiorcy powinni rozważyć, w jaki sposób mogłoby to umożliwić tworzenie większej liczby typów treści audio. Jest to szczególnie prawdziwe w przypadku małych firm o ograniczonych zasobach — być może teraz możesz stworzyć podcast, który wcześniej byłby zbyt kosztowny lub czasochłonny.

Ten przypadek użycia nie jest pozbawiony kontrowersji. Krytycy wyrażają wątpliwości etyczne dotyczące zgody i wynagrodzenia i argumentują, że może to podważyć zawód aktora głosowego. Ryzyko związane z fałszywym dźwiękiem i potencjalnym niewłaściwym wykorzystaniem również wydaje się duże, co podkreśla potrzebę wprowadzenia ram regulacyjnych w celu odpowiedzialnego zarządzania pojawiającymi się technologiami.

Jedną z odpowiedzi na ryzyko związane z tą technologią jest licencjonowanie głosu. Niektórzy aktorzy głosowi reagują na zagrożenie dla swojego zawodu, udzielając licencji na używanie ich głosów jako klonów głosowych sztucznej inteligencji w usługach takich jak biblioteka głosowa ElevenLabs. Następnie będą otrzymywać opłatę licencyjną za każdym razem, gdy ktoś użyje ich głosu.

Jednak w USA sam głos nie jest uważany za podlegający prawu autorskiemu , a jedynie określone nagrania głosowe. Tak jak korzystanie z „podobnego do brzmienia” piosenkarza jest legalnym sposobem naśladowania głosu danej osoby, to samo może dotyczyć fałszywego dźwięku. To stawia klonowanie głosu i licencjonowanie w szarej strefie prawnej, zwłaszcza że odpowiednie orzecznictwo pochodzi z 1988 r. Dopiero dalsze przypadki i uchwalenie przepisów takich jak ustawa o oszustwach w zakresie sztucznej inteligencji będą w stanie to wyjaśnić.

Audio AI do tłumaczeń i dubbingu

Audio AI zmienia także branżę tłumaczeń i dubbingu. Technologia ta umożliwia tworzenie interpretacji tekstu na głos i głosu na głos, starając się dokładnie naśladować ton i emocje oryginalnego mówcy, zapewniając bardziej autentyczne wrażenia słuchowe.

Ten wirusowy post w mediach społecznościowych pokazuje zdolność AI dubbingu do przełamywania barier językowych nawet w muzyce:

Bracie, naprawdę płaczę po wersecie Lil Yachtys️ pic.twitter.com/ZX6rqD0McE
— ₭ma (@KmaFr_) 20 lutego 2024 r

Ten dubbing z angielskiego na chiński mandaryński miał w momencie publikacji 1,7 miliona wyświetleń. Większość osób komentujących post nawet nie zna języka — są po prostu zachwyceni technologią.

Jednak pomimo jego potencjału, nadal istnieje ryzyko związane z tłumaczeniem i dubbingiem AI. Na przykład otwiera drzwi do utraty niuansów w tłumaczeniu, a także do błędnej interpretacji kulturowej. Przywołuje to również kwestię etyczną dotyczącą odtwarzania głosu danej osoby bez jej zgody.

Istnieje również ryzyko, że ludzie celowo manipulują nim, aby błędnie dubbingować czyjeś rzeczywiste słowa. Oto przykład stworzenia fałszywego filmu przedstawiającego przemówienie Morgana Freemana, co dało dość przekonujące rezultaty:

ŁAMANIE: Federalna Komisja Wyborcza rozważa ewentualne uregulowanie fałszywych reklam politycznych generowanych przez sztuczną inteligencję przed wyborami w 2024 r.

Dla tych, którzy nie wiedzą, głęboka fałszywka to zwykle klip audio/wideo utworzony przez sztuczną inteligencję, który wydaje się przedstawiać osobę, która coś mówi lub… pic.twitter.com/7lmlNht4QP
— Ed Krassenstein (@EdKrassen) 11 sierpnia 2023 r

Zapewnienie dokładności i poszanowanie praw innych osób do wyboru sposobu wykorzystania ich głosu mają kluczowe znaczenie w miarę postępu tej technologii. Skutecznie wykorzystane może otworzyć świat możliwości, pozwalając cieszyć się treściami, które wcześniej były niedostępne, a nawet łatwiej niż wcześniej rozmawiać z innymi.

Audio AI dla asystentów głosowych

Asystenci głosowi, tacy jak Siri, Alexa i Asystent Google, są już obsługiwani przez sztuczną inteligencję audio i wykorzystują przetwarzanie języka naturalnego do rozumienia poleceń użytkownika i reagowania na nie. Asystenci ci reprezentują znaczące zastosowanie sztucznej inteligencji audio, zarówno w zakresie rozpoznawania mowy, jak i wykorzystywania jej do interakcji z użytkownikami.

Asystenci głosowi są już popularni – 62% dorosłych Amerykanów twierdzi, że z nich korzysta.

W miarę udoskonalania sztucznej inteligencji prawdopodobnie w przyszłości staną się one jeszcze dokładniejsze, a co za tym idzie, bardziej popularne. W miarę wzrostu tej liczby coraz ważniejsza dla firm będzie optymalizacja artykułów i innych treści online pod kątem wyszukiwania głosowego.

Ale są też z nimi pewne obawy. Google był już celem pozwu zarzucającego nielegalne nagrywanie i rozpowszechnianie rozmów osób, które przez przypadek aktywowały swojego asystenta głosowego.

Przyszłość sztucznej inteligencji audio

Te trzy aplikacje dla AI audio to dopiero początek.

Nie zrozumcie mnie źle, zamiana tekstu na mowę, dubbing i asystenci głosowi to potężne aplikacje. Ale sztuczna inteligencja audio może zrobić jeszcze więcej w przyszłości.

Oto trzy kluczowe obszary, w których przewidujemy wzrost:

Rozwój sztucznej inteligencji w obsłudze klienta

Integracja głosowej sztucznej inteligencji z obsługą klienta może zrewolucjonizować sposób, w jaki firmy wchodzą w interakcje z klientami. Firmy korzystają już z chatbotów AI do obsługi klienta, więc byłoby to naturalne rozszerzenie istniejącego przypadku użycia

Na przykład sztuczna inteligencja audio mogłaby skutecznie stworzyć wersję dźwiękową tej interakcji z czatem obsługi klienta H&M:

Dzięki centrom telefonicznym opartym na sztucznej inteligencji firmy będą mogły obsługiwać dużą liczbę zapytań z większą wydajnością, skracając czas oczekiwania i usprawniając obsługę klienta.

Jeśli chodzi o funkcje, przewidujemy, że sztuczna inteligencja audio będzie w stanie zrobić więcej niż tylko automatyzować odpowiedzi. W przyszłości audio AI prawdopodobnie będzie w stanie analizować nastroje klientów i dostosowywać interakcje do indywidualnych potrzeb. Mogłoby to poprawić ogólną jakość usług na skalę, która byłaby obecnie zbyt kosztowna dla wielu firm.

W ramach tego analiza głosu AI może zapewnić specjalistom obsługi klienta informacje zwrotne w czasie rzeczywistym — wskazywanie na frustrację lub dezorientację klienta, które mogą nie zostać otwarcie wyrażone, pozwoli na bardziej zniuansowane i empatyczne podejście. Narzędzia sztucznej inteligencji, takie jak Einstein Salesforce, potrafią już identyfikować typowe trendy w danych klientów, więc w przyszłości sztuczna inteligencja audio może zrobić to samo z nagraniami rozmów z klientami.

Voice AI może stać się także głównym punktem kontaktu klienta z firmą. Obecnie firmy korzystają z oprogramowania do rozpoznawania głosu z nagranymi wcześniej odpowiedziami, aby rozwiązać najczęstsze problemy klientów. Dzięki sztucznej inteligencji mogłyby one bardziej naturalnie zintegrować się z rozmową z klientem.

Jednak ten skok technologiczny wiąże się z wyzwaniami. Wczesne problemy z wdrażaniem sztucznej inteligencji w obsłudze klienta, takie jak chatboty, które nie rozumieją złożonych zapytań klientów lub nie odpowiednio na nie odpowiadają, uwypukliły ograniczenia obecnych technologii sztucznej inteligencji.

W rzeczywistości jeden chatbot AI obsługi klienta kosztował linię lotniczą pieniądze za składanie obietnic dotyczących polityki zwrotów, które nie były prawdą.

To technologia, z którą firmy muszą uważać. Chociaż może nam jeszcze daleko do obsługi klienta opartej całkowicie na sztucznej inteligencji, już widzimy, jak firmy podejmują kroki w tym kierunku.

Rozwój sztucznej inteligencji w komunikacji biznesowej

Audio AI ma na celu przekształcenie krajobrazu zawodowego, nie tylko poprzez automatyzację rutynowych zadań, takich jak codzienna komunikacja wewnętrzna i formalności, ale także poprzez ponowne zdefiniowanie charakteru pracy i współpracy w organizacjach.

Na przykład sztuczna inteligencja audio może zautomatyzować wczesne rozmowy kwalifikacyjne w celu usprawnienia procesu selekcji. Umożliwi to rekruterom skupienie się na kandydatach, którzy na podstawie udzielonych odpowiedzi spełniają określone kryteria, co pomoże usprawnić proces rekrutacji. Zmniejszyłoby to również ryzyko, że ludzkie uprzedzenia będą mogły błędnie dyskontować potencjalnych kandydatów.

Audio AI może również pomóc w komunikacji wewnętrznej, tłumacząc wiadomości na różne języki w czasie rzeczywistym i zapewniając, że globalne zespoły będą na bieżąco informowane dzięki technologii takiej, jaką opracowało już ElevenLabs . Może to znacznie ułatwić komunikację i współpracę w coraz bardziej zróżnicowanych i rozproszonych środowiskach pracy.

Łącząc ludzi mówiących różnymi językami, sztuczna inteligencja audio ułatwi firmom zatrudnianie doskonałych ludzi niezależnie od tego, gdzie mieszkają i jakim językiem mówią. Doprowadzi to do większej różnorodności językowej i geograficznej, a komunikacja wewnętrzna stanie się prostsza nawet między pracownikami, którzy nie znają ani słowa w swoich ojczystych językach.

Jednak integracja audio AI w miejscu pracy wiąże się z ryzykiem. Obawy obejmują możliwość błędnej interpretacji podczas automatycznych wywiadów, podczas których można przeoczyć niuanse mowy lub sygnały niewerbalne. Poleganie na sztucznej inteligencji w komunikacji wewnętrznej i interakcjach z klientami może również skutkować utratą osobistego kontaktu, który sprzyja prawdziwym powiązaniom między ludźmi.

Rozwój sztucznej inteligencji w rozrywce

Rozrywka to kolejny obszar, w którym sztuczna inteligencja audio prawdopodobnie zmieni się radykalnie w przyszłości. Dzięki niemu ludzie będą mogli tworzyć nową muzykę i podcasty szybciej i łatwiej niż kiedykolwiek wcześniej.

Sztuczna inteligencja sterowana dźwiękiem będzie miała mnóstwo zastosowań.
Oto kilka (wiem, że niektórzy będą ich nienawidzić, ponieważ usuwają element *ludzki* z tak wielu rzeczy), które moim zdaniem zmienią wszystko:
– Audiobooki tworzone z głosami syntetycznymi
– Podcasty działające z…
— Ross Simmonds (@TheCoolestCool) 30 listopada 2023 r

Narzędzia oparte na sztucznej inteligencji mogą również pomóc twórcom podcastów w automatyzacji wielu aspektów produkcji, jak w poniższym przykładzie, redukując czas i koszty produkcji.

️ Przypadek użycia podcastów dla ChatGPT.
Niech sztuczna inteligencja konwertuje i łączy pliki audio.
Dodaj wstępy/zakończenia do odcinka. pic.twitter.com/u8DSqHUq5h
— Troy Tessalone | As Automatyzacji ️ (@AutomationAce_) 27 października 2023

Jednym z najbardziej intrygujących i kontrowersyjnych zastosowań sztucznej inteligencji audio jest jej zdolność do tworzenia muzyki w stylu istniejących lub byłych artystów. Projekty takie jak Jukebox OpenAI , który od podstaw generuje muzykę w różnych stylach, ilustrują zarówno potencjał, jak i obecne ograniczenia AI w procesach twórczych.

Choć wyniki są imponujące jak na tak wczesną technologię, brakuje im emocjonalnej głębi i złożoności muzyki tworzonej przez ludzkich artystów. Chociaż może to zmienić zasady gry w przyszłości, nie zastąpi to jeszcze ludzkich artystów.

W przyszłości sztuczna inteligencja może pomóc artystom, umożliwiając im odkrywanie nowych gatunków, stylów lub koncepcji bez inwestowania dni pracy. Może służyć jako „dowód słuszności koncepcji” dla artysty wahającego się co do pomysłu.

Może również pomóc twórcom podcastów, automatyzując lektora oraz generując efekty dźwiękowe i muzykę w tle, gdy tylko te możliwości zostaną rozwinięte.

Przepisy nie nadążają za aplikacjami w tym zakresie, chociaż Universal Music Group udało się usunąć piosenkę wygenerowaną przez sztuczną inteligencję imitującą współpracę Drake'a i The Weeknda.

Problemy etyczne i prawne pojawiają się również w przypadku wykorzystywania sztucznej inteligencji do naśladowania głosów lub stylów istniejących i byłych artystów. Debata na temat wydań pośmiertnych i autentyczności dzieł stworzonych przez sztuczną inteligencję podkreśla potrzebę jasnych wytycznych i standardów etycznych w zakresie wykorzystania sztucznej inteligencji w rozrywce.

Aplikacje Audio AI z rozrywką sprawią, że technologia i kreatywność spotkają się. W miarę jak technologia sztucznej inteligencji dojrzewa i staje się coraz bardziej zniuansowana pod względem zrozumienia i powielania ludzkiej kreatywności, będzie w dalszym ciągu pokonywać obecne ograniczenia, otwierając przed artystami zarówno nowe horyzonty, jak i nowe zagrożenia do pokonania.

Jak przygotować się na nowe i przyszłe zastosowania sztucznej inteligencji audio

Oto cztery główne kroki, które możesz podjąć, aby odnieść sukces dzięki sztucznej inteligencji audio.

1. Względy etyczne i rozwój polityki

Firmy muszą przyjąć jasne, etyczne zasady korzystania ze sztucznej inteligencji audio, traktując priorytetowo przejrzystość wobec użytkowników.

Jeśli używasz głosu AI opartego na głosie innej osoby niż Twój, upewnij się najpierw, że masz jej pozwolenie. Jeśli sztuczna inteligencja komunikuje się z klientem, upewnij się, że klient wie, że nie jest to żywa osoba.

Powinieneś także stworzyć środki bezpieczeństwa, aby zapobiec nieuprawnionemu dostępowi i wykorzystaniu jakichkolwiek posiadanych danych głosowych. Oznacza to stworzenie ścisłej kontroli dostępu określającej, kto może korzystać z danych, i przestrzeganie najlepszych praktyk w zakresie szyfrowania .

Twoje zasady będą również musiały uwzględniać potencjalne niewłaściwe zachowanie, zapewniając proces pozwalający poradzić sobie z każdą sztuczną inteligencją, która mówi coś, co nie mieści się w zasadach Twojej firmy, jak na przykład w poprzednim przykładzie linii lotniczej.

2. Inwestycja w umiejętność korzystania z AI w zakresie dźwięku

Aby inwestować w umiejętności korzystania z AI audio, firmy mogą nadać priorytet programom edukacyjnym i szkoleniowym dla swoich zespołów w zakresie działania, potencjału i ograniczeń technologii audio AI.

W tym celu utwórz warsztaty, seminaria i kursy online lub zainwestuj w nie, aby zwiększyć zrozumienie wśród pracowników na wszystkich poziomach, od personelu technicznego po decydentów.

W Fundacji robimy to, zapewniając pracownikom wiele możliwości rozwoju zawodowego, na przykład pokrywając koszty udziału pracowników w zajęciach. Inne firmy mogą to zrobić w ramach inicjatyw mentorskich lub edukacji rówieśniczej.

Edukacja ta może pomóc w wyjaśnieniu tajemnic sztucznej inteligencji, tworząc środowisko, w którym każdy może podejmować świadome i strategiczne decyzje dotyczące etycznego i skutecznego korzystania z niej.

3. Eksperymentowanie i współpraca

Jeśli zastosowałeś się do pierwszych dwóch punktów, masz już wytyczne dotyczące tego, jak ludziepowinnikorzystać ze sztucznej inteligencji i edukację, jakmogąz niej korzystać. Teraz powinieneś stworzyć środowisko, w którym mogą swobodnie wprowadzać innowacje. W ten sposóbwykorzystajągo maksymalnie.

W przeciwieństwie do start-upów – gdzie bodziec do innowacji pochodzi ze środowiska przedsiębiorczości – duża korporacja musi projektować swoje otoczenie i struktury tak, aby inspirować ludzi.
— Walter T. Rambwi (@hr_taurai) 18 października 2021 r

Partnerstwo między inżynierami a osobami z innych działów może być tutaj owocne, pomagając ludziom zobaczyć, jak sztuczna inteligencja audio może pomóc w rozwiązywaniu istniejących problemów.

Możesz nawet uczynić ten projekt swoim działem HR, zachęcając do ogólnej kultury współpracy i organizując międzywydziałowe dni, podczas których ludzie będą mogli wspólnie dzielić się tym, czego dowiedzieli się o sztucznej inteligencji.

4. Dostosowanie modeli biznesowych

Wraz z ewolucją możliwości sztucznej inteligencji audio powinien ewoluować także Twój model biznesowy. Sztuczną inteligencję audio możesz wykorzystać na kilka sposobów, np.:

Wykorzystanie możliwości tworzenia treści i rozrywki do eksperymentowania z nowymi formami marketingu treści
Wykorzystanie go do efektywniejszej komunikacji w ramach globalnej siły roboczej
Wykorzystanie go w obsłudze klienta dla efektywności i skalowalności

Aby zacząć to robić w miarę dojrzewania technologii, należy stworzyć system projektów pilotażowych w celu testowania aplikacji AI audio. Powinieneś zwrócić uwagę na obszary, w których istnieje największa potencjalna wartość dla Twojej firmy – np. analiza danych klientów w celu personalizacji interakcji.

Takie podejście pomoże Ci zachować konkurencyjność i znaczenie w krajobrazie technologicznym, który stale się zmienia i obejmuje sztuczną inteligencję.

Bądź na bieżąco z postępem technologii i sztucznej inteligencji

Audio AI już tu jest i staje się coraz bardziej zaawansowana. Zmienia sposób, w jaki tworzymy, kopiujemy i wyszukujemy treści. W przyszłości jego zastosowania staną się jeszcze bardziej zróżnicowane, pomagając firmom ulepszyć obsługę klienta, komunikację wewnętrzną i produkty rozrywkowe.

Dlatego opisujemy, w jaki sposób najbardziej zaawansowane organizacje marketingowe w dziedzinie technologii wprowadzają innowacje i wyprzedzają konkurencję.

Zainteresowany? Możesz uzyskać dostęp do naszej pełnej biblioteki studiów przypadków i zestawień tutaj .