OpenAI próbuje ukraść głos Scarlett Johansson, aby sztuczna inteligencja czuła się „komfortowo”, dlatego jest tak niepokojąca

Co musisz wiedzieć

Scarlett Johansson mówi, że w zeszłym roku OpenAI zwróciło się do niej z prośbą o wykorzystanie jej głosu w asystentce głosowej ChatGPT.
Chociaż Johansson nie zgodził się na tę propozycję, OpenAI dostarczyło swój model GPT-4o z głosem zwanym „Sky”, który brzmi całkiem podobnie do głosu Johanssona.
Po naciskach prawnych OpenAI usunął Sky z GPT-4o i stwierdził, że głos nie jest oparty na głosie Johanssona.
Mimo to, próbując używać przyjaznego i serdecznego głosu, aby sztuczna inteligencja czuła się bardziej komfortowo, OpenAI ostatecznie zrobiło odwrotnie.

W zeszłym tygodniu OpenAI zrobiło furorę, ogłaszając GPT-4o, multimodalny model sztucznej inteligencji, który może być najbardziej zaawansowanym i futurystycznym modelem, jaki do tej pory widzieliśmy. Brzmi jak człowiek, może wchodzić w interakcje z użytkownikami za pomocą obrazu i dźwięku i ma wiedzę. OpenAI ostatecznie pokonało Google, a GPT-4o wydaje się bardziej zaawansowany niż Project Astra, który Google zaprezentował na Google I/O 2024.

Jednak jeden z głosów, które OpenAI wybrał dla GPT-4o, przyciąga uwagę w Internecie ze złych powodów. Po pierwsze, niektórzy użytkownicy mediów społecznościowych zwrócili uwagę, że ich zdaniem głos „Sky” był zbyt zalotny i zmysłowy do tego stopnia, że był niepokojący. Potem ludzie zaczęli zauważać podobieństwa między głosem Sky a głosem wielokrotnie nagradzanej aktorki Scarlett Johansson. Teraz okazuje się, że mogło to być zamierzone.

Dla jasności OpenAI zaprzecza, jakoby głos Sky był oparty na Johanssonie, a nawet opublikował wpis na blogu wyjaśniający, w jaki sposób głosy zostały wybrane. Jednak Johansson wydała zjadliwe oświadczenie, w którym opisała, jak OpenAI zwróciło się do niej w sprawie oficjalnego udźwiękowienia GPT-4o, na co odmówiła. Po obliczu nacisków prawnych ze strony prawników Johanssona firma usunęła opcję głosową Sky z GPT-4o.

Choć ta sytuacja jest niepokojąca, jest niemal ironiczna. Dyrektor generalny OpenAI, Sam Altman, powiedział Johansson, że jej głos, będący oficjalnym głosem ChatGPT, będzie bardziej komfortowy dla użytkowników. A jednak, wypuszczając bez jej zgody głos tak podobny do głosu Johansson, Altman i OpenAI w efekcie doskonale uchwycili wszystko, co sprawia, że ludzie czują się niekomfortowo w związku ze sztuczną inteligencją.

Czy OpenAI ukradło głos Scarlett Johansson?

(Zdjęcie: Jay Bonggolto / Android Central)

Chociaż OpenAI twierdzi, że do GPT-4o poszukiwało profesjonalnych aktorów głosowych, a nie kogoś, kto brzmiałby konkretnie jak Johansson, dowody mogą mówić co innego. Według Johansson zaczyna się we wrześniu 2023 r., kiedy Altman z OpenAI skontaktował się z nią w sprawie zatrudnienia jej jako aktorki głosowej w ChatGPT.

„Powiedział mi, że według niego wypowiadając się na temat systemu, mogę wypełnić lukę między firmami technologicznymi a twórcami i pomóc konsumentom poczuć się komfortowo w obliczu zmian sejsmicznych dotyczących ludzi i Al” – stwierdziła w oświadczeniu dla Bobby’ego Allyna z NPR. „Powiedział, że według niego mój głos będzie dla ludzi pocieszający”.

Johansson ostatecznie zdecydował się nie kontynuować udźwiękowienia GPT-4o. Jednak łatwo jest usłyszeć jej podobieństwo w głosie Sky, który ostatecznie został zademonstrowany i dostarczony z modelem AI. Powiedzieć, że Johansson był niezadowolony z wyniku, byłoby niedopowiedzeniem.

Otrzymuj najświeższe informacje z Android Central, zaufanego towarzysza w świecie Androida

Oświadczenie Scarlett Johansson w sprawie sytuacji OpenAI. Wow: pic.twitter.com/8ibMeLfqP820 maja 2024 r

„Uważamy, że głosy sztucznej inteligencji nie powinny celowo naśladować charakterystycznego głosu celebryty – głos Sky nie jest imitacją Scarlett Johansson, ale należy do innej zawodowej aktorki, która używa własnego, naturalnego głosu” – stwierdziła OpenAI w poście na blogu.

Jedynym powodem, dla którego OpenAI chciało mieć głos taki jak Johansson, jak podobno powiedział jej Altman, jest sprawienie, aby sztuczna inteligencja była bardziej komfortowa. Ludzie mogą bardziej bać się sztucznej inteligencji niż być nią podekscytowani. Szczególnie osoby z branż kreatywnych odkrywają, że sztuczna inteligencja jest wykorzystywana do automatyzacji pisania, sztuk wizualnych, muzyki i innych mediów. Nie jest to coś wyjątkowego w OpenAI — Apple znalazł się niedawno w ogniu krytyki i przeprosił za reklamę, w której dosłownie widziano instrumenty miażdżone na kawałki i zastępowane iPadem.

Używając jej podobieństwa w głosie GPT-4o bez jej zgody – celowo lub nieumyślnie – OpenAI ostatecznie potwierdziło dyskomfort związany ze sztuczną inteligencją, któremu desperacko próbował zaradzić. Twórcy, od aktorów i aktorek po pisarzy i fotografów, obawiają się, że zostaną zastąpieni przez sztuczną inteligencję. Pomysł, że OpenAI mogło naśladować głos Johanssona w GPT-4o, jest dokładnie tym, co niepokoi i niepokoi ludzi z branż kreatywnych.

„Kiedy usłyszałem wydane demo, byłem zszokowany, zły i niedowierzałem, że Mr. Altman wybrałaby głos, który brzmiałby tak niesamowicie podobnie do mojego, że moi najbliżsi przyjaciele i serwisy informacyjne nie byliby w stanie dostrzec różnicy” – napisała Johansson, wyjaśniając, że poprosiła OpenAI o pokazanie, jak rozwinęło się głos Sky. „W czasach, gdy wszyscy zmagamy się z deepfake’ami i ochroną naszego własnego podobieństwa, naszej pracy i naszej tożsamości, uważam, że są to pytania zasługujące na absolutną jasność”.

Nie powinniśmy chcieć, aby sztuczna inteligencja brzmiała jak człowiek

Korzystanie z Google Gemini na Androidzie — (Źródło zdjęcia: Przyszłość)

Oprócz niepokojącego pomysłu, że firma może oszukać głos aktorki po niezatwierdzeniu umowy, istnieją inne powody, dla których nie chcemy, aby głosy sztucznej inteligencji brzmiał jak głos Sky. Wszystkie głosy GPT-4o OpenAI, a zwłaszcza głos Sky, brzmią bardzo podobnie do człowieka. Stanowi to problem, ponieważ ludzie mają wysoki poziom zaufania i znajomości ludzkich głosów. Kiedy rozmawiasz z asystentem głosowym, takim jak Siri czy Alexa, jasne jest, że rozmawiasz z – z braku lepszego słowa – robotem. Po rozmowie z GPT-4o nie zawsze będziesz miał w pamięci ten poziom przejrzystości.

W tej chwili modele sztucznej inteligencji mają problem polegający na tym, że z przekonaniem stwierdzają, że swoje odpowiedzi stanowią fakt, nawet jeśli rażąco się mylą. Ludzie nadal wierzą, że reakcje AI są prawdziwe, pomimo szeregu ostrzeżeń, które się z nimi pojawiają. W miarę jak głosy w modelach AI staną się bardziej ludzkie, problem będzie się tylko pogłębiał. Przeciętnemu użytkownikowi narzędzia AI łatwo będzie uwierzyć w to, co się mówi, dzięki przyjaznemu ludzkiemu głosowi, którego używa.

Próbując zapewnić ludziom większy komfort w obliczu przyszłości sztucznej inteligencji, OpenAI w końcu sprawiło, że to odczuli więcej dystopijny. Nie powinniśmy chcieć, aby sztuczna inteligencja brzmiała tak ludzko jak GPT-4o i jest ku temu wiele powodów. Może to zwiększyć nieuzasadniony poziom zaufania między użytkownikami a modelami sztucznej inteligencji, a także postawić twórców takich jak Johansson w niepewnej sytuacji.