NVIDIA AI GPU は、クラウド、エッジ、RTX PC 向けに Meta の新しい Llama 3 モデルをトレーニングしました

NVIDIA は、Meta の最新世代の大規模言語モデル (LLM) である Meta Llama 3 を高速化するための、すべてのプラットフォームにわたる最適化を発表しました。

ギャラリーを見る – 2 枚の画像

新しい Llama 3 モデルと NVIDIA アクセラレーションコンピューティングを組み合わせたものは、開発者、研究者、企業にさまざまなアプリケーションにわたるイノベーションを提供します。メタエンジニアは、NVIDIA Quantum-2 InfiniBand ネットワークを介してリンクされた 24,576 個の NVIDIA H100 AI GPU を備えたコンピューティングクラスター上で新しい Llama 3 をトレーニングしました。 NVIDIA のサポートを受けて、Meta は主力製品 Llama 3 LLM 向けにネットワーク、ソフトウェア、モデルアーキテクチャを調整しました。

最先端の生成 AI をさらに進化させるために、Meta は最近、自社の AI GPU インフラストラクチャを 350,000 個の NVIDIA H100 AI GPU まで拡張する計画について説明しました。これは大量の AI コンピューティング能力、大量のシリコン、おそらく都市 1 個分に相当する電力、そして Meta が NVIDIA に発注した AI GPU の信じられないほどの金額に相当します。

NVIDIA は、NVIDIA AI GPU で高速化された Meta の新しい Llama 3 のバージョンがクラウド、データセンター、エッジ、PC で使用できるようになったと発表しました。自分のブラウザから、 ここで Llama 3 をテストできます、どこにでも展開できる標準アプリケーションプログラミングインターフェイスを備えた NVIDIA NIM マイクロサーバーとしてパッケージ化されています。

NVIDIA は Web サイトで次のように説明しています。「チャットボットに LLM を導入するベストプラクティスには、コストを削減するための低遅延、良好な読み取り速度、および最適な GPU 使用のバランスが含まれます。このようなサービスは、トークン (LLM への単語にほぼ相当するもの) を配信する必要があります。」 – ユーザーの読み取り速度の約 2 倍、つまり約 10 トークン/秒で、単一の NVIDIA H200 Tensor コア GPU は、このバージョンを使用した初期テストで約 3,000 トークン/秒を生成しました。これは約 300 人の同時ユーザーにサービスを提供するのに十分です。 Llama 3 は 700 億のパラメータを備えています。これは、8 つの H200 GPU を備えた 1 台の NVIDIA HGX サーバーが 24,000 トークン/秒を提供できることを意味し、同時に 2,400 人以上のユーザーをサポートすることでコストをさらに最適化できます。」