Les GPU NVIDIA AI ont entraîné le nouveau modèle Llama 3 de Meta pour les PC cloud, Edge et RTX

Consultez notre autre site internet Juexparc.fr pour plus d’actualités et d’informations sur les jeux

NVIDIA vient d'annoncer des optimisations sur toutes ses plates-formes pour accélérer Meta Llama 3, le grand modèle de langage (LLM) de dernière génération de Meta.

VOIR LA GALERIE – 2 IMAGES

Le nouveau modèle Llama 3 combiné au calcul accéléré NVIDIA offre aux développeurs, aux chercheurs et aux entreprises une innovation dans diverses applications. Les ingénieurs Meta ont formé leur nouveau Llama 3 sur un cluster informatique comprenant 24 576 GPU NVIDIA H100 AI reliés via le réseau NVIDIA Quantum-2 InfiniBand ; avec le soutien de NVIDIA, Meta a ajusté ses architectures de réseau, de logiciels et de modèles pour son produit phare Llama 3 LLM.

Pour faire progresser davantage l'IA générative de pointe, Meta a récemment décrit son intention d'étendre son infrastructure GPU AI à un nombre étonnant de 350 000 GPU NVIDIA H100 AI. Cela représente beaucoup de puissance de calcul IA, une tonne de silicium, probablement l'équivalent d'une ville, et une somme d'argent incroyable en GPU IA commandés par Meta à NVIDIA.

NVIDIA a déclaré que les versions du nouveau Llama 3 de Meta, accélérées sur les GPU NVIDIA AI, sont désormais disponibles pour une utilisation dans le cloud, le centre de données, la périphérie et le PC. Depuis votre propre navigateur, vous pouvez tester Llama 3 juste iciprésenté sous la forme d'un microserveur NVIDIA NIM avec une interface de programmation d'application standard qui peut être déployée n'importe où.

NVIDIA explique sur son site Internet : « Les meilleures pratiques de déploiement d'un LLM pour un chatbot impliquent un équilibre entre une faible latence, une bonne vitesse de lecture et une utilisation optimale du GPU pour réduire les coûts. Un tel service doit fournir des jetons – l'équivalent approximatif des mots d'un LLM. – à environ deux fois la vitesse de lecture d'un utilisateur, soit environ 10 jetons/seconde. En appliquant ces métriques, un seul GPU NVIDIA H200 Tensor Core a généré environ 3 000 jetons/seconde – suffisamment pour servir environ 300 utilisateurs simultanés – lors d'un premier test utilisant la version de. Llama 3 avec 70 milliards de paramètres. Cela signifie qu'un seul serveur NVIDIA HGX doté de huit GPU H200 pourrait fournir 24 000 jetons/seconde, optimisant encore davantage les coûts en prenant en charge plus de 2 400 utilisateurs en même temps ».