Symbolem tej rewolucji jest Jensen Huang i współzałożona przez niego Nvidia, która w trzy dekady z małego producenta układów graficznych urosła do największej spółki świata z kapitalizacją ponad 4 bln USD. Świat technologii zachwyca się jej GPU napędzającymi centra danych hyperscalerów i stojącymi za dominacją firmy w sektorze. Niewielu jednak dostrzega, że u źródeł sukcesu leży decyzja architektoniczna, wybór monolitycznych układów, która wyniosła Nvidię na szczyt, ale w przyszłości może stać się jej ograniczeniem.
Architektura monolitu oznacza, że cały procesor powstaje jako jeden duży kawałek krzemu. Rozwiązanie to, choć kosztowne i wymagające technologicznie, zwłaszcza przy rosnących rozmiarach matrycy, daje kluczową przewagę: wszystkie elementy GPU komunikują się bezpośrednio, co przekłada się na maksymalną przepustowość i minimalne opóźnienia. Dzięki temu monolit świetnie sprawdza się przy trenowaniu LLM-ów, bo cały proces obliczeń i transferów odbywa się w obrębie jednego układu, eliminując dodatkowe opóźnienia i pozwalając w pełni wykorzystać przepustowość pamięci HBM, zasobu krytycznego przy treningu. Ceną są jednak rosnące koszty, trudności ze skalowaniem i większe ryzyko defektów. Dobrym przykładem jest architektura Hopper i układ H100 – ponad 80 mld tranzystorów w matrycy 814 mm², blisko granic technologicznych tzw. reticle limit w fabrykach TSMC. Kontrą dla strategii Nvidii jest podejście AMD. W 2014 roku prezes Lisa Su świadomie odeszła od monolitów na rzecz architektury chipletowej, określanej także jako modularna. GPU składa się tu z kilku mniejszych układów połączonych w jednym pakiecie, co obniża koszty, daje elastyczność i pozwala łączyć chipy wytwarzane w różnych technologiach. Największym wyzwaniem pozostaje zapewnienie ultraszybkiej i bezbłędnej komunikacji między modułami. Strategia najpierw została przetestowana na procesorach serwerowych EPYC, a następnie przeniesiona na GPU. Tak powstały akceleratory MI250 zbudowane z dwóch chipletów, a obecnie MI300, rekordowo złożone układy składające się nawet z trzynastu chipletów łączących CPU, GPU i pamięci HBM. Modularna budowa z dużą ilością HBM sprawia, że układy AMD szczególnie dobrze sprawdzają się we wnioskowaniu (wykorzystywaniu), gdzie liczą się pojemność pamięci i efektywność kosztowa przy masowej obsłudze modeli.
Trening modeli i ich wykorzystanie to dwie różne historie. Trening na ogromnych zbiorach danych wymaga ekstremalnej mocy i spójnego środowiska, tu monolityczne GPU Nvidii z ekosystemem CUDA nie mają konkurencji. Wnioskowanie, czyli praktyczne użycie wytrenowanych modeli, np. generowanie treści przez chatboty, to etap o kluczowym znaczeniu biznesowym. To tu powstaje realna wartość: wzrost produktywności i automatyzacja procesów. Ostatnie kwartały upłynęły pod znakiem wyścigu na coraz większe i mocniejsze modele, ale w kolejnych latach ważniejsze będzie ich efektywne wdrażanie w masowej skali. Tu przewagę może dać architektura chipletowa AMD, elastyczna, z dużą pojemnością HBM i korzystniejsza kosztowo. Nieprzypadkowo Meta i Microsoft zamówiły tysiące akceleratorów MI300, szukając alternatywy dla Nvidii i tańszego wnioskowania. Choć strategia AMD obiecuje przewagi w najbliższych latach, Nvidia nie stoi w miejscu. Dominuje w treningu i oprogramowaniu, a jednocześnie sama zwraca się ku chipletom. Nadchodząca generacja Blackwell ma być pierwszym krokiem w stronę architektury modularnej, sygnałem, że monolit, dotąd źródło dominacji, zaczyna ustępować miejsca rozwiązaniom modularnym.