당연히 텍스트, 이미지, 오디오를 입력으로 받아들일 수 있기 때문에 이러한 것들을 생성할 수도 있습니다. 이 게시물 상단에 있는 것은 실제로 실제 사진이 아니라 GPT-4o가 생성한 것으로 대중에게 공개된 최초의 이미지입니다. (풀 버전을 보려면 클릭할 수 있습니다.) OpenAI 티셔츠를 입은 남자가 상단에 “양식 간 전송”이라고 적힌 칠판에 글을 쓰고 있는 모습이 그려져 있으며 중간 텍스트는 명확하고 정확하게 쓰여 있습니다.
하나의 큰 자동 회귀 변환기를 사용하여 P(텍스트, 픽셀, 사운드)를 직접 모델링한다고 가정합니다. 장점과 단점은 무엇입니까?
이미지가 AI로 생성되었다는 몇 가지 숨길 수 없는 힌트가 여전히 있습니다. 칠판은 이상하게 울퉁불퉁했고, 모델은 여러 겹으로 된 칠판을 만드는 데 어려움을 겪었습니다. 남자의 손 모양도 좀 이상하고 이미지 전체에서 조명이 일관되지 않습니다. 그러나 실제 오류 없이 일관된 텍스트의 긴 문자열을 생성하는 능력은 실제로 이와 같은 모델에서는 놀라운 것입니다. 놀라운 DALL-E 3조차도 이 작업에 어려움을 겪고 있습니다.
Advertisement
이 이미지의 출처는 OpenAI의 사장 겸 공동 창업자인 Greg Brockman입니다. 어제 트윗했어. 이미지 및 오디오와 관련된 GPT-4o의 생성 기능은 아직 대중에게 제공되지 않습니다. 현재 ChatGPT Plus의 GPT-4o 미리 보기에서는 이미지 생성을 위해 여전히 DALL-E 3를 사용하고 있지만 Brockman은 그의 팀이 “열심히 일하고 있습니다”라고 말합니다. 그것들을 세상에 가져오기 위해.” 사람들이 새로운 도구를 사용하여 무엇을 만드는지 보는 것은 흥미로울 것입니다.