NVIDIA-jevi čipi Blackwell AI v naslednji generaciji se soočajo z resnimi težavami s pregrevanjem, ko so nameščeni v strežnikih z visoko zmogljivostjo.Te težave so privedle do oblikovanja sprememb in zamud ter sprožile pomisleke med strankami, kot so Google, Meta in Microsoft glede pravočasne uporabe strežnikov Blackwell.
Insajderji so razkrili, da se NVIDIA Blackwell GPU lahko pregreje, če se uporablja v strežnikih s 72 čipi.Pričakuje se, da bodo te naprave porabili do 120kW moči na stojalo.Ta vprašanja so prisilila, da NVIDIA večkrat oceni svoj dizajn regala strežnika, saj lahko pregrevanje omeji zmogljivost GPU in predstavlja tveganje za škodo na sestavnih delih.Stranke so zaskrbljene, ker lahko te neuspehe ovirajo njihov urnik za uvajanje novih čipov v podatkovne centre.
Po poročilih je Nvidia svojim dobaviteljem naročila, naj v stojalu naredijo več sprememb oblikovanja, da bi rešili težave s pregrevanjem.Podjetje tesno sodeluje s svojimi dobavitelji in partnerji pri razvoju inženirskih revizij za izboljšanje hlajenja strežnika.Čeprav so te prilagoditve standardna praksa za tako obsežno tehnološko izdajo, še vedno dodajajo zamude in še dodatno odložijo pričakovani datum dostave.
Glede na poročilo First Financial, kot odgovor na zamude in pregrevanje, je tiskovni predstavnik Nvidia izjavil: "Sodelujemo z vodilnimi ponudniki storitev v oblaku kot bistveni del naše inženirske ekipe in procesov. Inženirske iteracije so normalne in pričakovane. VključevanjeGB200, najnaprednejši sistem do zdaj, v različna okolja podatkovnih centrov zahteva skupno zasnovo z našimi strankami. "Nvidia je tudi navedla, da "stranke trenutno izkoriščajo tržno priložnost za sisteme GB200.
Prej je morala NVIDIA preložiti proizvodnjo Blackwella zaradi oblikovanja napak v donosu čipov.NVIDIA's Blackwell B100 in B200 GPU uporabljata tehnologijo embalaže TSMC Cowos-L za povezovanje dveh čipov.Ta zasnova vključuje vmesno plast RDL z mostom LSI (Local Silicon Interconnect), ki podpira hitrosti prenosa podatkov do 10TB/s.Natančno pozicioniranje teh mostov LSI je ključnega pomena, da tehnologija deluje, kot je bilo pričakovano.Vendar pa je neusklajenost v toplotni ekspanzijski značilnostih med čipi GPU, mostovi LSI, medsebojnimi podplati in podlogomi matične plošče privedla do okvare izkritja in sistema.Za reševanje tega vprašanja je NVIDIA spremenila zgornjo kovinsko plast in izboklino GPU silicija, da bi izboljšala zanesljivost proizvodnje.
Zato bo končni revidirani Nvidia Blackwell GPU začel množično proizvodnjo šele konec oktobra, kar pomeni, da bo Nvidia lahko te čipe pošiljala od konca januarja prihodnje leto.
Stranke Nvidia, vključno s tehnološkimi velikani, kot so Google, Meta in Microsoft, uporabljajo Nvidia GPUS za usposabljanje svojih najmočnejših velikih jezikovnih modelov.Zamuda Blackwell AI GPU bo seveda vplivala na načrte in izdelke kupcev Nvidije.