Il presidente di OpenAI condivide la prima immagine creata da GPT-4o

Nel caso in cui ti fossi perso tutte le novità all'inizio di questa settimana, OpenAI ha appena rivelato il suo modello AI di prossima generazione, noto come GPT-4o. La “o” sta per “Omni” e non rappresenta la terrificante onniscienza del modello, ma piuttosto la sua capacità di supportare nativamente più tipi diversi di input. Questo è abbastanza nuovo; storicamente la multimodalità per i modelli linguistici di grandi dimensioni significava convertire tutti gli input in testo utilizzando altri modelli AI intermedi.

Naturalmente, poiché può accettare testo, immagini e audio come input, può anche creare queste cose. Ciò che abbiamo in cima a questo post in realtà non è una vera fotografia, ma piuttosto la primissima immagine rivelata al pubblico come creata da GPT-4o. (Puoi fare clic per vedere la versione completa.) Raffigura un uomo con una maglietta OpenAI che scrive su una lavagna che dice “Trasferimento tra modalità” in alto, con il testo centrale scritto in modo chiaro e corretto:

Supponiamo di modellare direttamente P (testo, pixel, suono) con un grande trasformatore autoregressivo. Quali sono i pro e i contro?

Ci sono ancora alcuni indizi rivelatori che l'immagine è generata dall'intelligenza artificiale; la lavagna è stranamente irregolare e il modello ha avuto difficoltà con l'idea di lavagne a più strati. Anche la mano dell'uomo ha una forma strana e l'illuminazione non è coerente nell'immagine. Tuttavia, la capacità di creare una lunga stringa di testo coerente senza errori reali è davvero incredibile per un modello come questo. Anche l'incredibile DALL-E 3 fatica a svolgere questo compito.

L'immagine ha origine dal presidente e co-fondatore di OpenAI Greg Brockman, che lo ha twittato ieri. Le capacità generative di GPT-4o per quanto riguarda immagini e audio non sono ancora disponibili al pubblico: l'anteprima di GPT-4o in ChatGPT Plus al momento utilizza ancora DALL-E 3 per la generazione di immagini, ma Brockman afferma che il suo team sta “lavorando sodo” per portarli al mondo.” Sarà affascinante vedere cosa le persone creeranno utilizzando il nuovo strumento.

Advertisement

Advertisement