Prezes OpenAI udostępnia pierwszy obraz stworzony przez GPT-4o

Jeśli przegapiliście całe zamieszanie z początku tego tygodnia, OpenAI właśnie ujawniło swój model sztucznej inteligencji nowej generacji, znany jako GPT-4o. „O” oznacza „Omni” i nie reprezentuje przerażającej wszechwiedzy modelu, ale raczej jego zdolność do natywnej obsługi wielu różnych typów danych wejściowych. To całkiem nowatorskie; historycznie rzecz biorąc, multimodalność w przypadku dużych modeli językowych oznaczała konwersję wszystkich danych wejściowych na tekst przy użyciu innych, pośrednich modeli sztucznej inteligencji.

Naturalnie, ponieważ może przyjmować tekst, obrazy i dźwięk jako dane wejściowe, może również tworzyć te rzeczy. To, co mamy na początku tego posta, tak naprawdę nie jest prawdziwą fotografią, ale raczej pierwszym zdjęciem, które zostało upublicznione jako stworzone przez GPT-4o. (Możesz kliknąć, aby zobaczyć pełną wersję.) Przedstawia mężczyznę w koszulce OpenAI piszącego na tablicy z napisem „Transfer między modalnościami” u góry, z wyraźnie i poprawnie napisanym środkowym tekstem:

Załóżmy, że bezpośrednio modelujemy P (tekst, piksele, dźwięk) za pomocą jednego dużego transformatora autoregresyjnego. Jakie są zalety i wady?

Nadal istnieje kilka wyraźnych wskazówek, że obraz został wygenerowany przez sztuczną inteligencję; tablica jest dziwnie nierówna, a modelka zmagała się z ideą wielowarstwowych tablic. Dłoń mężczyzny również ma dziwny kształt, a oświetlenie jest nierównomierne na całym zdjęciu. Jednak możliwość utworzenia długiego ciągu spójnego tekstu bez rzeczywistych błędów jest naprawdę niesamowita w przypadku takiego modelu. Nawet niesamowity DALL-E 3 radzi sobie z tym zadaniem.

Zdjęcie pochodzi od Grega Brockmana, prezesa i współzałożyciela OpenAI, który opublikował to wczoraj na Twitterze. Możliwości generacyjne GPT-4o w zakresie obrazów i dźwięku nie są jeszcze dostępne publicznie — podgląd GPT-4o w ChatGPT Plus w tej chwili nadal wykorzystuje DALL-E 3 do generowania obrazu — ale Brockman twierdzi, że jego zespół „ciężko pracuje aby sprowadzić je na świat.” Fascynujące będzie obserwowanie, co ludzie tworzą za pomocą nowego narzędzia.