Nowy akcelerator AI Instinct MI300X firmy AMD ze 192 GB pamięci HBM3E był szczegółowo omawiany w tym tygodniu na targach Hot Chips 2024, a firma drażniła się z odświeżonym MI325X z 288 GB pamięci HBM3E jeszcze w tym roku.
ZOBACZ GALERIĘ – 6 ZDJĘĆ
Wewnątrz nowy akcelerator AI Instinct MI300X firmy AMD zawiera łącznie 153 miliardy tranzystorów, wykorzystując połączenie nowych węzłów procesowych FinFET 5 nm i 6 nm firmy TSMC. Istnieje 8 chipletów wyposażonych w 4 współdzielone silniki, a każdy współdzielony silnik zawiera 10 jednostek obliczeniowych.
Cały chip zawiera 32 silniki cieniujące, w sumie 40 silników cieniujących w jednym XCD i łącznie 320 w całym pakiecie. Każdy pojedynczy XCD ma dedykowaną pamięć podręczną L2, a na obrzeżach pakietu zawiera łącze Infinity Fabric Link, 8 witryn HBM3 IO i pojedyncze łącze PCIe Gen5 o przepustowości 128 GB/s, które łączy MI300X z procesorem AMD EPYC.

AMD wykorzystuje własną technologię Infinity Fabric czwartej generacji w swoim akceleratorze AI Insintct MI300X, zapewniając przepustowość do 896 GB/s. MI300X korzysta również z łącza Infinity Fabric Advanced Package, łącząc wszystkie chipy z przepustowością dwusekcyjną do 4,8 TB/s, podczas gdy interfejs XCD/IOD zapewnia przepustowość 2,TB/s.
AMD dostarczyło pełny schemat blokowy architektury MI300X, z każdym XCD zawierającym 2 wyłączone jednostki obliczeniowe, co daje łącznie 304 jednostki CU w MI300X z pełnego projektu 320 CU. Pełny chip zawiera 20 480 rdzeni, podczas gdy MI300X ma 19 456 rdzeni. AMD ma również 256 MB dedykowanej pamięci podręcznej Infinity w MI300X.

Firma zwraca również uwagę, że jej Instinct MI300X to pierwszy akcelerator AI wyposażony w 8-stosową konstrukcję pamięci HBM3, przy czym 8-stosowa konstrukcja pozwala AMD osiągnąć 1,5 razy większą pojemność (128 GB do 192 GB), ale także 1,6 razy większą przepustowość pamięci (3 TB/s do 5,2 TB/s) w porównaniu z MI250X.

AMD twierdzi, że dzięki większej i szybszej pamięci HBM nowy Instinct MI300X może obsłużyć większe moduły LLM (FP16) o rozmiarze do 70B podczas treningu i 680B podczas wnioskowania. Systemy NVIDIA HGX H100 mogą obsługiwać jedynie modele LLM o wielkości do 30B w trybie uczenia i do 290B w procesie wnioskowania.

Jedną z ciekawych funkcji Instinct MI300X jest to, że AMD ma własną technologię porcjowania przestrzennego, umożliwiającą użytkownikom partycjonowanie płyt XCD w zależności od obciążenia. Każdy z XCD działa razem jako pojedynczy procesor, ale można je podzielić na partycje, a następnie zgrupować, aby wyglądały jak wiele procesorów graficznych.
AMD zapowiedziało na październik odświeżony akcelerator AI Instinct MI325X, który pomieści pamięć HBM3E o pojemności do 288 GB i jeszcze wyższych prędkościach. AMD obiecuje 1,3x większą przepustowość pamięci i 1,3x szczytową teoretyczną poprawę wydajności obliczeniowej FP16 i FP8 w porównaniu z Instinct MI300X i jego pamięcią HBM3.
W 2026 roku poznamy serię Instinct MI400 nowej generacji, opartą na architekturze CDNA przyszłej generacji, którą firma nazwała „CDNA Next”.
Nowy akcelerator AMD Instinct MI325X, który zapewni 288 GB pamięci HBM3E i 6 terabajtów przepustowości pamięci na sekundę, wykorzystuje tę samą branżową konstrukcję serwerów Universal Baseboard, co seria AMD Instinct MI300, i będzie ogólnie dostępny w czwartym kwartale 2024 r. Akcelerator będzie miał wiodącą w branży pojemność pamięci i przepustowość, odpowiednio 2x i 1,3x lepszą niż konkurencja4 i 1,3x lepszą5 wydajnością obliczeniową niż konkurencja.
Pierwszy produkt z serii AMD Instinct MI350, akcelerator AMD Instinct MI350X, jest oparty na architekturze AMD CDNA 4 i ma być dostępny w 2025 roku. Będzie on wykorzystywał tę samą branżową konstrukcję serwerów Universal Baseboard, co inne akceleratory serii MI300 i zostanie zbudowany w oparciu o zaawansowaną technologię procesową 3 nm, będzie obsługiwać typy danych AI FP4 i FP6 i posiadać aż 288 GB pamięci HBM3E.
Oczekuje się, że architektura AMD CDNA „Next”, która będzie zasilać akceleratory AMD Instinct serii MI400, będzie dostępna w 2026 roku i będzie zapewniać najnowsze funkcje i możliwości, które pomogą odblokować dodatkową wydajność i efektywność na potrzeby wnioskowania i szkolenia sztucznej inteligencji na dużą skalę.