Erik Pounds z Nvidii: Tradycyjnie algorytmy nie rozumieją kontekstu rozmów; Teraz jest to możliwe
Opublikowany: 2022-11-02Nieco ponad rok temu rozmawiałem z Bryanem Catanzaro z Nvidii o niektórych interesujących technologiach, które rozwijali w dziedzinie graficznej sztucznej inteligencji, syntezy głosu i konwersacyjnej/mowy AI.
Bryan podzielił się wizją przyszłości tego, co takie rzeczy jak uczenie maszynowe i głębokie uczenie mogą zrobić, aby wpłynąć na sposób, w jaki doświadczamy otaczającego nas świata. Podczas gdy niektóre rzeczy, takie jak tworzenie przez sztuczną inteligencję rzeczy, takich jak sztuka, muzyka i ludzkie głosy, cieszą się dużym zainteresowaniem, istnieje kilka bardziej praktycznych przykładów wykorzystania sztucznej inteligencji, aby pomóc w tworzeniu lepszych doświadczeń klientów, gdy potrzebujemy pomocy z produktem lub usługą .
Minął rok, ciekawiły mnie postępy w tych obszarach i miałem szczęście porozmawiać za pośrednictwem LinkedIn Live z Erikiem Poundsem, starszym dyrektorem ds. komputerów korporacyjnych i nauki o danych w firmie Nvidia, na temat kierunków takich jak konwersacja i mowa AI wprowadziła się od czasu mojej ostatniej rozmowy z Bryanem. Poniżej znajduje się zredagowany zapis naszej rozmowy. Kliknij osadzony odtwarzacz SoundCloud, aby usłyszeć pełną rozmowę.
Brent Leary: Z czym mamy dziś do czynienia, jeśli chodzi o sztuczną inteligencję mowy i sztuczną inteligencję konwersacyjną?
Erik Pounds: Myślisz o sztucznej inteligencji mowy, myślisz o funkcjach takich jak automatyczne rozpoznawanie mowy, w których sztuczna inteligencja działa w tle i może natychmiast rozpoznać, co mówisz. Może przetłumaczyć to, co zostało powiedziane. Następnie może działać na podstawie tych informacji w czasie rzeczywistym. W ten sposób możesz zapewnić wiele pomocnych rzeczy. Wyobraź sobie agenta obsługi klienta na końcu rozmowy telefonicznej. Wielu z nas po drugiej stronie, po stronie konsumenta, chce… A czego tak naprawdę chcemy? Cóż, po pierwsze lubimy rozmawiać z ludźmi, a po drugie chcemy szybko uzyskać pomoc, prawda?
Wyobraź sobie, że używam go z tyłu, więc po stronie agenta wyobraź sobie, że rozmawiam z agentem próbującym uzyskać pomoc i zadaję kilka pytań, wyobraź sobie, że sztuczna inteligencja działa w tle, ciągnąc artykułów opartych na wiedzy, znajdowania informacji, znajdowania przydatnych narzędzi i pomagania mi w odpowiadaniu na moje pytanie.
Wtedy agent ma wszystkie te informacje na wyciągnięcie ręki, aby pomóc mi rozwiązać mój problem. To tak, jakby tuż obok ciebie siedziało supermocarstwo, aby pomóc komuś zdobyć wspaniałe doświadczenie i rozwiązać jego wyzwania, prawda? Kiedy myślimy o sztucznej inteligencji, zwłaszcza w tym kontekście, nie chodzi o zastąpienie człowieka robotem, z którym porozmawiasz. Są te stopniowe kroki, które będą w stanie pomóc firmom świadczącym usługi swoim klientom przez dosłownie dziesięciolecia.
Dane mają fundamentalne znaczenie, empatia dodaje potrzebnego elementu ludzkiego
Brent Leary: Kiedy ludzie myślą o sztucznej inteligencji, mają tę wąską definicję i wąski pogląd na to, na co może ona wpłynąć. Ale jeśli chodzi o wrażenia klientów, gdy potrzebują pomocy, wydaje się, że nie tylko sztuczna inteligencja, ale połączenie przynajmniej poczucia, że komunikujesz się z człowiekiem, przynajmniej ludzką brzmiącą rzeczą lub kimś, kto ma jakiś rodzaj ludzka empatia. To tak samo ważne, jak dysponowanie odpowiednimi danymi.
Erik Pounds: Absolutnie. Dane są fundamentalnym elementem tego wszystkiego. Jeśli dokonamy transkrypcji połączenia, dane zostaną wygenerowane w czasie rzeczywistym. Ale są też inne dane, które już istnieją, często pozostając w spoczynku w firmie, które można wykorzystać. Myślę, że jedną z najlepszych strategii, jaką może przyjąć każda firma, jest wymyślenie: „W porządku. Jakie są cenne dane, które już posiadam, które już posiadam? I jak mogę to wykorzystać, aby zapewnić lepsze wrażenia klientów?” Niektóre z nich mogą być tylko danymi ogólnymi.
Na przykład za każdym razem, gdy następuje transakcja z klientem, następuje zaangażowanie, które generuje dane. Możesz uzyskać z tego wiele informacji dotyczących trendów, wzorców i tego typu rzeczy. Mogliby pomóc przyszłym klientom, prawda? Często wiele z tych połączeń, interakcji jest transkrybowanych i przechowywanych. Wszyscy słyszymy tę część początku każdego wezwania, jak: „Ta rozmowa może być monitorowana.
Jeśli będziesz kontynuować, tak się stanie.” Pomyśl o tym prawie jak o informacji crowdsourcingowej. Możesz naprawdę wykorzystać te informacje, aby jak najlepiej wykorzystać. Myślę więc, że wiele z nich zaczyna się od podstaw, w jaki sposób wykorzystujesz i wykorzystujesz dane.
Łączenie kontekstu
Brent Leary: Czy możesz opowiedzieć trochę o składniku tego, w którym jesteśmy w stanie nie tylko mieć świetną transkrypcję i rozumienie języka naturalnego, ale także składnik sentymentu, zdolność do wykorzystania empatii wraz ze sztuczną inteligencją mowy jako częścią połączenie. Ponieważ częścią tego jest rozwiązanie wyzwania lub pomoc, ale drugą częścią jest to, jak to się dzieje i poczucie, że ludzie czerpią nie tylko z poprawy danej rzeczy, ale także ze sposobu, w jaki rzecz została naprawiona, w jaki sposób zostali zaangażowani , ich społeczności, empatii w tę iz powrotem. Czy możesz trochę opowiedzieć o tym, gdzie z tym jesteśmy?
Erik Pounds: Często, kiedy mówię jedną rzecz, a potem ty odpowiadasz, wtedy mówię coś innego, że następne zdanie jest powiązane z pierwszym zdaniem. Kiedy spojrzysz na to, jak tradycyjnie działały algorytmy, często nie rozumieją tego kontekstu. Nie przetwarzają tego ani nie biorą pod uwagę. Teraz jest to możliwe. Na przykład, na naszej konferencji, która odbyła się w zeszłym miesiącu, opublikowaliśmy kilka wersji demonstracyjnych, NVIDIA GTC, wydaliśmy demo.
Jest to demonstracja obsługi klienta wykorzystująca framework sztucznej inteligencji, który nazywamy NVIDIA Tokkio, która dokładnie pokazuje, jak to działa, jeśli chodzi o zapewnienie realistycznej interakcji, która rozumie, co mówię, o co proszę, i jest w stanie zrobić to w naturalnym przepływie ludzkiej rozmowy. I to jest krytyczne. Ponieważ coraz bardziej automatyzujemy cały proces, ma to absolutnie kluczowe znaczenie. Ponieważ tak jak powiedziałeś, chcemy wchodzić w interakcje z ludźmi, prawda? Jak powiedziałeś, ktoś dzwoni, chce słyszeć ludzki głos, chce kogoś, kto jest przyjazny, który ich rozumie, docenia to, co mówi.
Jeśli sztuczna inteligencja jest zbudowana na tym poziomie, musi być w stanie to zrobić. W przeciwnym razie doświadczenie nie będzie dobre. Myślę, że jest to ważne, gdy mówimy o technologii AI. Jeśli chodzi o sztuczną inteligencję mową lub sztuczną inteligencję konwersacyjną, istnieje wiele technicznych aspektów typu: „W porządku. Cóż, jaki procent słów, które wypowiadasz, rozumiem? Czy jestem w stanie zrozumieć Twoje słowa w hałaśliwym otoczeniu? Jestem w stanie zrobić to wszystko.” I tak działa ta technologia.
Ale tak naprawdę liczy się to, czy jest to wspaniałe doświadczenie, czy nie jest to wspaniałe doświadczenie? Możesz zastosować niesamowitą technologię, aby sprostać temu wyzwaniu, a mimo to nie zapewnić doskonałej obsługi klienta. I to jest najważniejsze, prawda? Dlatego przyjęliśmy podejście, zgodnie z naszą technologią, że jedną z najważniejszych rzeczy, które możemy pomóc naszym klientom, jest wykorzystanie sztucznej inteligencji, skorzystanie z tych wstępnie wytrenowanych modeli i możliwość dostosowania ich do własnej domeny i własnego środowiska .
Jeśli prowadzisz call center, gdzie większość dyskusji dotyczy botaniki, nie pamiętam nazw roślin, które zmieniałem w czasach mojego podwórka, prawda? Ale jeśli tak jest, musisz upewnić się, że ta sztuczna inteligencja rozumie określone terminologie, wyrażenia i kontekst wokół tej domeny. A jeśli jest to firma zajmująca się sprzętem medycznym, możesz sobie wyobrazić, że jest wiele rzeczy, które zostaną omówione w tej rozmowie, a które nie są w normalnej rozmowie, w której zostałby przeszkolony model AI.
Więc personalizacja jest bardzo ważna, podobnie jak język, prawda? Tak więc w oparciu o obszary świata, w których mieszkają lub z których dzwonią Twoi klienci, chcesz być w stanie zrozumieć dialekty, żargon, takie rzeczy i być w stanie właściwie sobie z tym poradzić. Tak więc wiele z tego nie jest… Nie można po prostu wziąć podstawowego modelu AI i wdrożyć go do pracy w środowisku, a zapewnia on wszędzie wspaniałe wrażenia. Personalizacja będzie bardzo ważna.
Nie przeocz danych, które masz przed sobą
Brent Leary: Jakie są niektóre z rzeczy, które mogą sprawić, że firmy wciąż próbują się zorientować, jeśli chodzi o posuwanie się naprzód z tym?
Erik Pounds: W kontekście tej rozmowy, jak wspomniałeś, masz dobre relacje z kilkoma firmami, które budują te platformy CRM, które są używane przez wiele różnych przedsiębiorstw i organizacji. Często przedsiębiorstwo ma swój istniejący stos usług lub stos technologii, a następnie chce zrobić coś nowego. Czasami to, gdzie są dzisiaj, ma pewne ograniczenia.
To często powoduje pewne komplikacje, ponieważ częścią tego jest: „Cóż, mogę sam zbudować to i podłączyć do mojej istniejącej platformy”. Czasami musisz wrócić do swojego niezależnego dostawcy oprogramowania i zgłosić prośbę o dodanie funkcji, np. „Hej, naprawdę chcemy to zrobić. Jakie masz pomysły?”
Myślę, że co najważniejsze, gdy zaczniesz te rozmowy, zrozum dane, które są na wyciągnięcie ręki. Dowiedz się, co możesz zrobić sam, do czego są zdolni Twoi ISV, co mógłbyś nawet zrobić, gdybyś miał tylko odrobinę pomocy doradczej. I myślę, że po prostu mając pełne zrozumienie, możesz zrobić pozytywne kroki naprzód.
Większość pierwszych projektów AI w przedsiębiorstwach jest przyzwyczajona do… Wyrzynają sobie zęby, prawda? Nie zawsze im się to udaje. To nowa technologia. Więc powiedziałbym, że przygotowanie się tak bardzo, jak to możliwe, aby mieć największą szansę na sukces w swoim pierwszym projekcie, jest teraz bardzo ważne.
Brent Leary: Z perspektywy aplikacji CRM, szczególnie jeśli jesteś sprzedawcą, nie znoszą CRM. Nie lubią wkładać rzeczy. Nie zarejestrowali się, aby pisać, przesuwać palcem lub klikać. Naprawdę chcą wyjść, budować relacje i sprzedawać rzeczy. I moja fantazja jest taka, czy nie byłoby fajnie, gdybyś mógł po prostu porozmawiać z aplikacją korporacyjną, niezależnie od tego, czy jest to CRM, ERB, czy jakikolwiek inny akronim, który chcesz tam wyrzucić, gdybyś mógł po prostu porozmawiać z nią tak, jak rozmawiamy teraz i załatwić swoje sprawy, czy to tylko fantazja? A może widzisz dzień, w którym moglibyśmy prowadzić tego rodzaju rozmowę z naszymi aplikacjami?
Erik Pounds: Nie, nie powinno być. Zwłaszcza w dzisiejszych czasach, kiedy większość z nich… Wspomniałeś w stylu: „Ok. Wróciłem do Salesforce i zaktualizowałem ten rekord po rozmowie z tym klientem lub potencjalnym klientem”. A wszyscy wiemy, że często te rekordy nie są tak dobrze aktualizowane, a firma nie ma inteligencji, której potrzebuje, aby iść naprzód, prawda? Gazociąg nie jest aktualny. Nie możesz się z tego wyciągnąć. Wiele z tych rozmów wygląda teraz tak, jak my, prawda? Są odległe. Nie są w sali konferencyjnej w jakimś budynku. Lub nawet jeśli są w sali konferencyjnej w jakimś budynku, często jest ktoś, kto jest odległy. I tak jest system podsłuchujący tę rozmowę.
Po prostu możliwość transkrypcji tej rozmowy i możliwość zrobienia tego dla, w tym przypadku, menedżera konta lub innej osoby zaangażowanej, byłaby świetna. I to wszystko dzisiaj jest w stanie. Tak jak ta rozmowa, ta rozmowa jest transkrybowana. Używasz jakiejś funkcji ASR do transkrypcji konwersacji, a następnie stosujesz jakąś funkcję NLU lub NLP, aby zrozumieć kontekst tego, o czym do cholery mówimy. A potem można łatwo przejść i zaktualizować wiele standardowych pól. I to wszystko jest powtarzalne. Im bardziej powtarzalna czynność, tym łatwiej zastosować sztuczną inteligencję.
Jest to część serii wywiadów jeden na jeden z liderami myśli. Transkrypcja została zredagowana do publikacji. Jeśli jest to wywiad audio lub wideo, kliknij osadzony odtwarzacz powyżej lub zasubskrybuj przez iTunes lub Stitcher.