Bezpieczeństwo i etyka w sztucznej inteligencji — podejście Meltwater
Opublikowany: 2023-08-16Sztuczna inteligencja zmienia nasz świat, oferując nam niesamowite nowe możliwości, takie jak automatyczne tworzenie treści i analiza danych oraz spersonalizowani asystenci AI. Choć technologia ta stwarza bezprecedensowe możliwości, wiąże się również z poważnymi problemami dotyczącymi bezpieczeństwa, którymi należy się zająć, aby zapewnić jej niezawodne i sprawiedliwe użytkowanie.
W Meltwater wierzymy, że zrozumienie i stawienie czoła wyzwaniom związanym z bezpieczeństwem sztucznej inteligencji ma kluczowe znaczenie dla odpowiedzialnego rozwoju tej rewolucyjnej technologii.
Główne obawy związane z bezpieczeństwem sztucznej inteligencji koncentrują się wokół tego, jak uczynić te systemy niezawodnymi, etycznymi i korzystnymi dla wszystkich. Wynika to z możliwości powodowania przez systemy sztucznej inteligencji niezamierzonych szkód, podejmowania decyzji niezgodnych z ludzkimi wartościami, wykorzystywania ich w złośliwy sposób lub nabierania takiej mocy, że wymykają się spod kontroli.
Spis treści
Krzepkość
Wyrównanie
Stronniczość i Uczciwość
Interpretowalność
Dryf
Ścieżka dla bezpieczeństwa sztucznej inteligencji
Krzepkość
Odporność sztucznej inteligencji odnosi się do jej zdolności do stałego i dobrego działania nawet w zmieniających się lub nieoczekiwanych warunkach.
Jeśli model AI nie jest solidny, może łatwo zawieść lub dostarczyć niedokładnych wyników w przypadku narażenia na nowe dane lub scenariusze poza próbkami, na których został przeszkolony. Dlatego kluczowym aspektem bezpieczeństwa sztucznej inteligencji jest tworzenie solidnych modeli, które mogą utrzymać wysoki poziom wydajności w różnych warunkach.
W Meltwater zajmujemy się odpornością sztucznej inteligencji zarówno na etapie szkolenia, jak i wnioskowania. W celu poprawy odporności systemów sztucznej inteligencji w niepewnych lub nieprzyjaznych sytuacjach stosuje się wiele technik, takich jak trening kontradyktoryjny, kwantyfikacja niepewności i uczenie federacyjne.
Wyrównanie
W tym kontekście „dopasowanie” odnosi się do procesu zapewniania synchronizacji celów i decyzji systemów AI z wartościami ludzkimi, co jest koncepcją znaną jako dostosowanie do wartości.
Źle dopasowana sztuczna inteligencja może podejmować decyzje, które ludzie uznają za niepożądane lub szkodliwe, mimo że są optymalne zgodnie z parametrami uczenia się systemu. Aby osiągnąć bezpieczną sztuczną inteligencję, naukowcy pracują nad systemami, które rozumieją i szanują ludzkie wartości w trakcie procesów decyzyjnych, nawet gdy uczą się i ewoluują.
Tworzenie zorientowanych na wartości systemów sztucznej inteligencji wymaga ciągłej interakcji i informacji zwrotnych od ludzi. Meltwater szeroko wykorzystuje techniki Human In The Loop (HITL), uwzględniając opinie ludzi na różnych etapach naszych przepływów pracy związanych z rozwojem sztucznej inteligencji, w tym monitorowanie wydajności modeli online.
Techniki takie jak odwrotne uczenie się ze wzmacnianiem, kooperacyjne uczenie się odwrotnego wzmacniania i gry wspomagające są przyjmowane, aby uczyć się i szanować ludzkie wartości i preferencje. Wykorzystujemy również teorię agregacji i wyboru społecznego, aby poradzić sobie ze sprzecznymi wartościami między różnymi ludźmi.
Stronniczość i Uczciwość
Jednym z krytycznych problemów związanych ze sztuczną inteligencją jest jej potencjał do wzmacniania istniejących uprzedzeń, co prowadzi do niesprawiedliwych wyników.
Stronniczość w sztucznej inteligencji może wynikać z różnych czynników, w tym (między innymi) danych wykorzystywanych do szkolenia systemów, projektu algorytmów lub kontekstu, w którym są stosowane. Jeśli system sztucznej inteligencji jest szkolony na danych historycznych, które zawierają tendencyjne decyzje, system może nieumyślnie utrwalać te uprzedzenia.
Przykładem jest sztuczna inteligencja doboru pracy, która może niesprawiedliwie faworyzować określoną płeć, ponieważ została wyszkolona na podstawie wcześniejszych decyzji o zatrudnieniu, które były stronnicze. Zajmowanie się sprawiedliwością oznacza podejmowanie świadomych wysiłków w celu zminimalizowania uprzedzeń w sztucznej inteligencji, zapewniając w ten sposób sprawiedliwe traktowanie wszystkich osób i grup.
Meltwater przeprowadza analizę stronniczości we wszystkich naszych zestawach danych szkoleniowych, zarówno wewnętrznych, jak i open source, i kontradyktoryjnie zachęca wszystkie duże modele językowe (LLM) do zidentyfikowania stronniczości. Szeroko wykorzystujemy testy behawioralne do identyfikowania problemów systemowych w naszych modelach nastrojów i egzekwujemy najsurowsze ustawienia moderacji treści we wszystkich LLM używanych przez naszych asystentów AI. Wiele statystycznych i obliczeniowych definicji rzetelności, w tym (między innymi) parytet demograficzny, równe szanse i uczciwość indywidualna, jest wykorzystywanych w celu zminimalizowania wpływu stronniczości sztucznej inteligencji na nasze produkty.

Interpretowalność
Przejrzystość w sztucznej inteligencji, często określana jako możliwość interpretacji lub wyjaśnienia, jest kluczowym czynnikiem bezpieczeństwa. Obejmuje umiejętność zrozumienia i wyjaśnienia, w jaki sposób systemy sztucznej inteligencji podejmują decyzje.
Bez możliwości interpretacji zalecenia systemu sztucznej inteligencji mogą wyglądać jak czarna skrzynka, co utrudnia wykrywanie, diagnozowanie i korygowanie błędów lub uprzedzeń. W związku z tym wspieranie interpretowalności systemów sztucznej inteligencji zwiększa odpowiedzialność, zwiększa zaufanie użytkowników i promuje bezpieczniejsze korzystanie ze sztucznej inteligencji. Meltwater stosuje standardowe techniki, takie jak LIME i SHAP, aby zrozumieć podstawowe zachowania naszych systemów sztucznej inteligencji i uczynić je bardziej przejrzystymi.
Dryf
Dryf AI lub dryf koncepcji odnosi się do zmiany wzorców danych wejściowych w czasie. Ta zmiana może doprowadzić do spadku wydajności modelu AI, wpływając na niezawodność i bezpieczeństwo jego prognoz lub zaleceń.
Wykrywanie dryfu i zarządzanie nim ma kluczowe znaczenie dla utrzymania bezpieczeństwa i niezawodności systemów sztucznej inteligencji w dynamicznym świecie. Skuteczna obsługa dryfu wymaga ciągłego monitorowania wydajności systemu i aktualizowania modelu w razie potrzeby.
Meltwater monitoruje dystrybucje wniosków wyciągniętych przez nasze modele AI w czasie rzeczywistym, aby wykryć dryf modelu i pojawiające się problemy z jakością danych.
Ścieżka dla bezpieczeństwa sztucznej inteligencji
Bezpieczeństwo sztucznej inteligencji to wielopłaszczyznowe wyzwanie wymagające wspólnego wysiłku badaczy, twórców sztucznej inteligencji, decydentów i całego społeczeństwa.
Jako firma musimy przyczynić się do stworzenia kultury, w której bezpieczeństwo sztucznej inteligencji jest priorytetem. Obejmuje to ustanowienie ogólnobranżowych norm bezpieczeństwa, wspieranie kultury otwartości i odpowiedzialności oraz niezłomne zaangażowanie w wykorzystywanie sztucznej inteligencji do zwiększania naszych możliwości w sposób zgodny z najgłębszymi wartościami Meltwater.
Z tym ciągłym zaangażowaniem wiąże się odpowiedzialność, a zespoły AI firmy Meltwater opracowały zestaw etycznych zasad sztucznej inteligencji firmy Meltwater, inspirowanych zasadami Google i OECD. Zasady te stanowią podstawę tego, jak Meltwater prowadzi badania i rozwój w zakresie sztucznej inteligencji, uczenia maszynowego i nauki o danych.
- Przynosić korzyści społeczeństwu, ilekroć pojawiają się możliwości, w zrównoważony i sprzyjający włączeniu społecznemu sposób.
- Odchylenie i dryf to wady. Zawodzą firmę i naszych klientów.
- Bezpieczeństwo, prywatność i ochrona jako obywatele pierwszej klasy.
- Śledź wszystko i bądź odpowiedzialny. Przejrzystość to podstawa.
- Jesteśmy naukowcami i inżynierami; wszystko musi być sprawdzone i przetestowane.
- Korzystaj z otwartego oprogramowania, gdy tylko jest to możliwe; sprawdź wszystko inne i załóż, że jest to niebezpieczne.
Firma Meltwater nawiązała partnerstwa i członkostwa, aby jeszcze bardziej wzmocnić swoje zaangażowanie we wspieranie etycznych praktyk sztucznej inteligencji.
- Firma Meltwater powołała Naukową Radę Doradczą (SAB), która jest zespołem wybitnych badaczy naukowych i profesjonalistów oferujących wskazówki dotyczące strategii Meltwater w zakresie sztucznej inteligencji
- Meltwater przestrzega wytycznych PR Council dotyczących generatywnej sztucznej inteligencji, które zostały wprowadzone w kwietniu 2023 r
- Meltwater pomaga markom w przestrzeganiu ram bezpieczeństwa i przydatności marki WAF GARM, dostarczając wiele modeli sztucznej inteligencji do wykrywania szkodliwych, obraźliwych i niebezpiecznych treści w tekście, dźwięku, obrazach i filmach, w tym przypadków użycia dezinformacji za pośrednictwem naszego partnerstwa Newsguard.
Jesteśmy niezwykle dumni z tego, jak daleko Meltwater zaszedł w dostarczaniu klientom etycznej sztucznej inteligencji. Wierzymy, że Meltwater jest gotowy do dalszego dostarczania przełomowych innowacji w celu usprawnienia podróży wywiadowczych w przyszłości i cieszymy się, że możemy nadal odgrywać wiodącą rolę w odpowiedzialnym wspieraniu naszych zasad rozwoju sztucznej inteligencji, wspieraniu ciągłej przejrzystości, co prowadzi do większego zaufania wśród klientów.