驚異的な ChatGPT-4o リアルタイム翻訳は Google を恐怖させるはずだ

明日の Google I/O では、Gemini AI アプリの増加する才能に焦点を当てる予定で、OpenAI はまず Chat-GPT の最新バージョンである ChatGPT-4o をリリースしてそこに参入します。

新しい Chat GPT-4o (「o」は音声、ビデオ、テキストを処理できるため「omni」を表します) の目玉は、リアルタイム翻訳の速さです。

Advertisement

OnePlus 10T が £367.71 に値下げ

OnePlus 10T は優れた Android フラッグシップであり、大幅な値下げが可能になりました。 Amazon でわずか £367.71 で購入可能になりました

  • アマゾン
  • 1回 £729
  • 現在 £367.71

取引を見る

ChatGPT-4 のイテレーションについては、同社 言う 「テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドでトレーニングしました。これは、すべての入力と出力が同じニューラル ネットワークによって処理されることを意味します。」 GPT-4o はこれらすべてのモダリティを組み合わせた最初のモデルであるため、このモデルで何ができるか、そしてその制限についてはまだ表面をなぞっただけです。」

Advertisement

異なる言語を話す人々にとって、このシステムは信じられないほどの利益をもたらす可能性があります。 これは、意図した言語で発話を繰り返すのを聞くまでの待ち時間がほとんどなく、リアルタイムに音声を切り替えます。

今日の OpenAI のプレゼンテーションで披露されたデモンストレーションがユーザーに得られるエクスペリエンスであるならば、それは、強力で優れた翻訳アプリを通じて長年モバイル言語翻訳の王者であった Google に挑戦を投げかけることになります。

以下のビデオの 1 つ (他の例もあります) では、男性が ChatGPT に翻訳者としての役割を依頼している様子が示されています。

男性は AI に、英語で聞こえたすべてをイタリア語に翻訳し、その逆に翻訳するように依頼します。 次に、OpenAI CTO の Mira Murati がイタリア語で話すと、英語の反応は非常に早く、印象的な会話のような口調で返されます。

興味深いことに、AI は発話を単に翻訳するのではなく、元の言語の話者を三人称 (「彼女は…と言った」) で参照します。 ユーザーの声のニュアンスに応じて、「さまざまな感情的なスタイル」の音声を生成できます。 OpenAIは、速度の点でもGoogleやMetaなどのライバルを上回っていると述べている。

同社が公開した別のビデオでは、ユーザーが AI に介入して修正し、AI がすぐに方向を変えて同様の応答をすることができることが示されています。 以下の高速カウントビデオをご覧ください。 同社はまた、信じられないほど現実的な会話の調子と周囲を認識する能力を披露しました。

OpenAI によると、GPT-4o のテキストと画像の入力は本日提供され、音声とビデオの入力は数週間以内に API に追加される予定です。

Advertisement