Le GPU AI NVIDIA hanno addestrato il nuovo modello Llama 3 di Meta per PC cloud, edge e RTX

NVIDIA ha appena annunciato ottimizzazioni su tutte le sue piattaforme per accelerare Meta Llama 3, il modello LLM (Large Language Model) di ultima generazione di Meta.

VISUALIZZA GALLERIA – 2 IMMAGINI

Il nuovo modello Llama 3 combinato con il computing accelerato NVIDIA offre a sviluppatori, ricercatori e aziende innovazione in varie applicazioni. Gli ingegneri di Meta hanno addestrato il loro nuovo Llama 3 su un cluster di elaborazione con 24.576 GPU NVIDIA H100 AI collegate tramite la rete NVIDIA Quantum-2 InfiniBand; con il supporto di NVIDIA, Meta ha ottimizzato la rete, il software e le architetture dei modelli per il suo fiore all'occhiello Llama 3 LLM.

Per far avanzare ulteriormente l’intelligenza artificiale generativa all’avanguardia, Meta ha recentemente descritto i piani per scalare la sua infrastruttura GPU AI fino a raggiungere la sorprendente cifra di 350.000 GPU AI NVIDIA H100. Si tratta di molta potenza di calcolo dell'intelligenza artificiale, una tonnellata di silicio, probabilmente l'energia di una città e un'incredibile somma di denaro per le GPU AI ordinate da Meta da NVIDIA.

NVIDIA ha affermato che le versioni del nuovo Meta Llama 3, accelerate sulle GPU NVIDIA AI, sono ora disponibili per l'uso nel cloud, nel data center, nell'edge e nel PC. Dal tuo browser, puoi provare Llama 3 proprio quiconfezionato come microserver NVIDIA NIM con un'interfaccia di programmazione delle applicazioni standard che può essere distribuito ovunque.

NVIDIA spiega sul suo sito web: “Le migliori pratiche nell'implementazione di un LLM per un chatbot implicano un equilibrio tra bassa latenza, buona velocità di lettura e utilizzo ottimale della GPU per ridurre i costi. Un tale servizio deve fornire token, l'equivalente approssimativo delle parole a un LLM – a circa il doppio della velocità di lettura di un utente, ovvero circa 10 token/secondo, applicando questi parametri, una singola GPU NVIDIA H200 Tensor Core ha generato circa 3.000 token/secondo, sufficienti per servire circa 300 utenti simultanei, in un test iniziale utilizzando la versione di. Llama 3 con 70 miliardi di parametri. Ciò significa che un singolo server NVIDIA HGX con otto GPU H200 potrebbe fornire 24.000 token al secondo, ottimizzando ulteriormente i costi supportando più di 2.400 utenti contemporaneamente”.