OpenAI 社長が GPT-4o によって作成された最初のイメージを共有

今週初めの話題を見逃した方のために付け加えておきますが、OpenAI は GPT-4o として知られる次世代 AI モデルを発表したばかりです。 「o」は「Omni」を表し、モデルの恐るべき全能性ではなく、複数の異なるタイプの入力をネイティブにサポートする機能を表しています。 これは非常に斬新です。 歴史的に、大規模な言語モデルのマルチモダリティは、他の中間 AI モデルを使用してすべての入力をテキストに変換することを意味していました。

もちろん、テキスト、画像、音声を入力として受け取ることができるので、それらを作成することもできます。 この投稿の先頭にあるものは、実際には実際の写真ではなく、GPT-4o によって作成されたものとして一般に公開された最初の画像です。 (クリックすると完全版が表示されます。) OpenAI T シャツを着た男性が黒板の上部に「モダリティ間の転送」と書いており、中央のテキストは明確かつ正確に書かれています。

1 つの大きな自己回帰変換器を使用して P(テキスト、ピクセル、サウンド) を直接モデル化するとします。 長所と短所は何ですか?

この画像が AI によって生成されたものであることを示すいくつかの証拠がまだ残っています。 黒板は奇妙に凹凸があり、モデルは黒板を何層にも重ねるというアイデアに苦労しました。 男性の手もなんだか奇妙な形をしており、画像全体で照明が一貫していません。 ただし、実際のエラーなしで一貫したテキストの長い文字列を作成できる機能は、このようなモデルでは実際には信じられないほど優れています。 素晴らしい DALL-E 3 でも、この作業には苦労しています。

Advertisement

この画像は、OpenAI の社長兼共同創設者である Greg Brockman 氏によるものです。 昨日ツイートした。 画像と音声に関する GPT-4o の生成機能はまだ一般公開されていません。ChatGPT Plus の GPT-4o プレビューは現在も画像生成に DALL-E 3 を使用しています。しかし、ブロックマン氏は、彼のチームは「懸命に取り組んでいる」と述べています。それらを世界にもたらすために。」 人々が新しいツールを使用して何を作成するかを見るのは興味深いでしょう。

Advertisement