Procesory graficzne NVIDIA AI przeszkoliły nowy model Meta Llama 3 pod kątem komputerów stacjonarnych pracujących w chmurze, brzegowych i RTX

NVIDIA właśnie ogłosiła optymalizacje na wszystkich swoich platformach w celu przyspieszenia Meta Llama 3, najnowszej generacji modelu wielkojęzykowego (LLM) firmy Meta.

ZOBACZ GALERIĘ – 2 ZDJĘCIA

Nowy model Llama 3 w połączeniu z akceleracją obliczeniową NVIDIA zapewnia programistom, badaczom i firmom innowacje w różnych zastosowaniach. Inżynierowie Meta przeszkolili swoją nową Llamę 3 na klastrze obliczeniowym zawierającym 24 576 procesorów graficznych NVIDIA H100 AI połączonych siecią NVIDIA Quantum-2 InfiniBand; przy wsparciu firmy NVIDIA firma Meta dostroiła swoją sieć, oprogramowanie i architekturę modeli dla swojego flagowego modelu Llama 3 LLM.

Aby dalej udoskonalać najnowocześniejszą generatywną sztuczną inteligencję, Meta opisała niedawno plany skalowania swojej infrastruktury procesorów graficznych AI do zdumiewających 350 000 procesorów graficznych NVIDIA H100 AI. To mnóstwo mocy obliczeniowej AI, tona krzemu, prawdopodobnie moc miasta i niesamowita suma pieniędzy na procesory graficzne AI zamówione przez Meta od NVIDIA.

NVIDIA poinformowała, że wersje nowej platformy Lama 3 firmy Meta, akcelerowanej na procesorach graficznych NVIDIA AI, są teraz dostępne do użytku w chmurze, centrach danych, urządzeniach brzegowych i komputerach PC. Z własnej przeglądarki, możesz przetestować Llamę 3 tutajw postaci mikroserwera NVIDIA NIM ze standardowym interfejsem programowania aplikacji, który można wdrożyć w dowolnym miejscu.

NVIDIA wyjaśnia na swojej stronie internetowej: „Najlepsze praktyki wdrażania LLM dla chatbota obejmują równowagę pomiędzy niskimi opóźnieniami, dobrą szybkością odczytu i optymalnym wykorzystaniem procesora graficznego w celu zmniejszenia kosztów. Taka usługa musi dostarczać tokeny – przybliżony odpowiednik słów LLM — przy około dwukrotnie większej szybkości odczytu użytkownika, czyli około 10 tokenów na sekundę. Stosując te wskaźniki, pojedynczy procesor graficzny NVIDIA H200 Tensor Core wygenerował około 3000 tokenów na sekundę — co wystarczy do obsługi około 300 jednoczesnych użytkowników — we wstępnym teście z użyciem wersji oprogramowania. „Llama 3 z 70 miliardami parametrów. Oznacza to, że pojedynczy serwer NVIDIA HGX z ośmioma procesorami graficznymi H200 może dostarczyć 24 000 tokenów na sekundę, dodatkowo optymalizując koszty, obsługując jednocześnie ponad 2400 użytkowników”.