OpenAI、人間とコンピューターの自然な対話への一歩となる新しい AI モデルを発表

OpenAI は、オーディオ、ビジュアル、テキストを分析し、その内容に基づいて回答を提供するように設計された新しい AI モデルを発表しました。見る/聞く」。

非常に人気のある AI ツール ChatGPT の背後にある会社は、GPT-4o (omni) と呼ばれる最新のフラッグシップモデルを発表しました。OpenAI は、これを「人間とコンピュータのより自然な対話新しい AI モデルは、テキストおよびコード入力の処理において GPT-4 Turbo のパフォーマンスに匹敵すると同時に、その API により高速かつ 50% 安価になることが期待されており、サードパーティアプリの統合にとってより手頃な選択肢になります。

より具体的には、ユーザーは AI エージェントができることについて音声でクエリを送信できるようになります。見る「デバイスの画面上で」を表示し、その例として、AI に 2 人でプレイできるゲームを尋ねることが考えられます。OpenAI は、2 人が AI に口頭で質問することでこれを実証しました。どのようなゲームをプレイできますか「。AIはスマートフォンのカメラを使って」見る「その前に座っていた 2 人がジャンケンをしようと提案しました。簡単なデモンストレーションでは、AI モデルが個人と流暢に対話でき、割り込みや新しいコマンドにも非常に敏感であることが示されました。」

次に個人は AI に質問します。だれが勝った？「するとAIはこう答えました」それは引き分けです」と、デバイスのカメラを使用して見ることができることを示しています。

」音声入力にはわずか 232 ミリ秒 (平均 320 ミリ秒) で応答できます。これは人間の会話における応答時間 (新しいウィンドウで開きます) とほぼ同じです。」とOpenAIは書いています