NVIDIA的下一代Blackwell AI芯片安裝在高容量服務器架上時,面臨嚴重的過熱問題。這些問題導致了設計變化和延遲,並引起了Google,Meta和Microsoft等客戶對Blackwell服務器及時部署的關注。
內部人士透露,NVIDIA的Blackwell GPU在使用72個芯片的服務器中使用時會過熱。這些設備預計每個機架最多可消耗120kW的功率。這些問題迫使NVIDIA重新評估其服務器機架設計多次,因為過熱可以限制GPU性能並構成組件損壞的風險。客戶擔心這些挫折可能會阻礙他們在數據中心部署新芯片的時間表。
據報導,NVIDIA已指示其供應商對機架進行多次設計更改,以解決過熱問題。該公司與供應商和合作夥伴緊密合作,以開發工程修訂以改善服務器冷卻。儘管這些調整是如此大規模技術發布的標準實踐,但它們仍然增加延遲並進一步延遲預期的交付日期。
NVIDIA發言人說:“根據第一財務的報告,為了應對延誤和過熱問題,我們正在與領先的雲服務提供商合作,這是我們工程團隊和流程的重要組成部分。工程迭代是正常且預期的。集成。迄今為止,最先進的系統GB200進入各種數據中心環境需要與我們的客戶進行聯合設計。”NVIDIA還表示:“客戶目前正在抓住GB200系統的市場機會。
以前,由於芯片產量的設計缺陷,NVIDIA不得不推遲Blackwell的生產。NVIDIA的Blackwell B100和B200 GPU使用TSMC Cowos-L包裝技術連接兩個芯片。該設計包括帶有LSI(本地矽互連)橋的RDL中間層,支持高達10TB/s的數據傳輸速度。這些LSI橋的確切定位對於該技術如預期的運行至關重要。但是,GPU芯片,LSI橋,RDL中間層和主板基板之間的熱擴展特性不匹配導致了扭曲和系統故障。為了解決這個問題,NVIDIA修改了GPU矽的頂部金屬層和凹凸結構,以提高生產可靠性。
因此,最終修訂後的NVIDIA BLACKWELL GPU將僅在10月下旬開始大規模生產,這意味著Nvidia將能夠從明年1月下旬開始運送這些籌碼。
Nvidia的客戶,包括Google,Meta和Microsoft等科技巨頭,使用Nvidia GPU來培訓其最強大的大型語言模型。Blackwell AI GPU的延遲自然會影響Nvidia的客戶計劃和產品。