Obejrzyj sztuczną inteligencję VASA-1 firmy Microsoft, która sprawia, że Mona Lisa śpiewa jak gwiazda rapu w dzikiej wersji demonstracyjnej

Microsoft prezentuje swoje sztuczki w nowej wersji demonstracyjnej VASA-1, przy której Mona Lisa wypluwa rymowanki niczym gwiazda rapu. Nowa platforma służy do generowania realistycznych, gadających twarzy wirtualnych postaci z umiejętnościami wizualnymi (VAS).

Strach przed wykorzystaniem sztucznej inteligencji do tworzenia fałszywych ludzi mógł właśnie stać się nieco bardziej przerażający. Najnowsza zapowiedź Microsoftu dotycząca modelu VASA-1 jest w stanie nie tylko wykonywać ruchy warg zsynchronizowane z dźwiękiem, ale także jest w stanie uchwycić szerokie spektrum niuansów twarzy i naturalnych ruchów głowy, co według firmy przyczynia się do postrzegania autentyczności i żywotności . Min Choi udostępniła na X/Twitterze wideo stworzone z VASA-1, przedstawiające „Mona Lisa rapująca Paparazzi”.

Microsoft właśnie wypuścił VASA-1.
Ta sztuczna inteligencja może sprawić, że pojedynczy obraz będzie śpiewał i mówił wyraźnie na podstawie odniesienia audio. Podobne do EMO z Alibaba
10 dzikich przykładów:
1. Mona Lisa rapuje Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) 18 kwietnia 2024 r

Gigant oprogramowania wyjaśnił, że podstawowe innowacje VASA-1 obejmują holistyczną dynamikę twarzy i model generowania ruchów głowy, który działa w ukrytej przestrzeni twarzy. Mówi się, że VASA-1 pod wieloma względami przewyższa poprzednie metody pod wieloma względami i zapewnia wysoką jakość wideo z realistyczną dynamiką twarzy i głowy, jednocześnie obsługując generowanie online filmów w rozdzielczości 512 x 512 z szybkością do 40 klatek na sekundę z „niewielkim opóźnieniem początkowym”.

Z wielką mocą wiąże się wielka odpowiedzialność i Microsoft twierdzi, że rozumie to, jeśli chodzi o możliwości VASA-1. Firma zdaje sobie sprawę z możliwości niewłaściwego wykorzystania tej techniki, ale dodaje, że „konieczne jest rozpoznanie znacznego, pozytywnego potencjału” techniki firmy. Microsoft wymienia korzyści, które obejmują między innymi zwiększenie równości edukacyjnej, poprawę dostępności dla osób mających trudności z komunikacją, oferowanie towarzystwa lub wsparcia terapeutycznego potrzebującym. Microsoft podsumowuje, że dąży do odpowiedzialnego rozwoju sztucznej inteligencji, a ostatecznym celem jest poprawa dobrostanu ludzi.

Biorąc to wszystko pod uwagę, gigant oprogramowania twierdzi, że nie planuje udostępniania wersji demonstracyjnej online VASA-1, API, produktu, dodatkowych szczegółów wdrożenia lub wszelkich powiązanych ofert, dopóki nie będzie pewność, że technologia będzie używana w sposób odpowiedzialny i zgodny z właściwymi przepisami. Więc… może nigdy?