OpenAI 회장, GPT-4o가 생성한 첫 번째 이미지 공유

이번 주 초 모든 소문을 놓친 경우를 대비해 OpenAI는 GPT-4o로 알려진 차세대 AI 모델을 공개했습니다. “o”는 “Omni”를 의미하며, 이는 모델의 무서운 전지성을 의미하는 것이 아니라 다양한 유형의 입력을 기본적으로 지원하는 능력을 나타냅니다. 이것은 아주 새로운 것입니다. 역사적으로 대규모 언어 모델의 다중 양식은 다른 중간 AI 모델을 사용하여 모든 입력을 텍스트로 변환하는 것을 의미했습니다.

당연히 텍스트, 이미지, 오디오를 입력으로 받아들일 수 있기 때문에 이러한 것들을 생성할 수도 있습니다. 이 게시물 상단에 있는 것은 실제로 실제 사진이 아니라 GPT-4o가 생성한 것으로 대중에게 공개된 최초의 이미지입니다. (풀 버전을 보려면 클릭할 수 있습니다.) OpenAI 티셔츠를 입은 남자가 상단에 “양식 간 전송”이라고 적힌 칠판에 글을 쓰고 있는 모습이 그려져 있으며 중간 텍스트는 명확하고 정확하게 쓰여 있습니다.

하나의 큰 자동 회귀 변환기를 사용하여 P(텍스트, 픽셀, 사운드)를 직접 모델링한다고 가정합니다. 장점과 단점은 무엇입니까?

이미지가 AI로 생성되었다는 몇 가지 숨길 수 없는 힌트가 여전히 있습니다. 칠판은 이상하게 울퉁불퉁했고, 모델은 여러 겹으로 된 칠판을 만드는 데 어려움을 겪었습니다. 남자의 손 모양도 좀 이상하고 이미지 전체에서 조명이 일관되지 않습니다. 그러나 실제 오류 없이 일관된 텍스트의 긴 문자열을 생성하는 능력은 실제로 이와 같은 모델에서는 놀라운 것입니다. 놀라운 DALL-E 3조차도 이 작업에 어려움을 겪고 있습니다.

이 이미지의 출처는 OpenAI의 사장 겸 공동 창업자인 Greg Brockman입니다. 어제 트윗했어. 이미지 및 오디오와 관련된 GPT-4o의 생성 기능은 아직 대중에게 제공되지 않습니다. 현재 ChatGPT Plus의 GPT-4o 미리 보기에서는 이미지 생성을 위해 여전히 DALL-E 3를 사용하고 있지만 Brockman은 그의 팀이 “열심히 일하고 있습니다”라고 말합니다. 그것들을 세상에 가져오기 위해.” 사람들이 새로운 도구를 사용하여 무엇을 만드는지 보는 것은 흥미로울 것입니다.