輝達乙太網路技術 助力 xAI 建造的全球最大AI超級電腦。資料照
AI霸主輝達(NVIDIA)今天宣布xAI在美國田納西州孟菲斯市使用NVIDIA Spectrum-X乙太網路平台打造出規模龐大、搭載10萬個NVIDIA Hopper Tensor核心GPU的Colossus超級電腦叢集。NVIDIA Spectrum-平台為多租戶、超大規模AI工廠提供卓越性能而設計,使用標準乙太網路作為其遠端直接記憶體存取(RDMA)網路。
Colossus是全球最大的人工智慧(AI)超級電腦,用於訓練xAI的Grok系列大型語言模型,並為XPremium用戶提供聊天機器人功能。xAI正在將Colossus的規模擴大一倍,總計將搭載20萬個NVIDIA Hopper GPU。
xAI與NVIDIA在短短122天內就建置出相關配套設施與Colossus這具最先進的超級電腦,這種規模的系統通常要用到幾個月到幾年的時間建置。從安裝第一個機架到開始訓練 AI僅歷時19天。
Colossus超級電腦在訓練規模極為龐大的Grok模型時,展現出前所未有的網路效能。在所有三層網路結構中,系統都未因流量碰撞而出現應用程式延遲或封包遺失的情況。Colossus超級電腦藉由 Spectrum-X壅塞控制功能,保有95%的資料輸送量。
標準乙太網路會無法大規模達到這樣的效能水準,會造成上千次的流量碰撞,又只能提供60%的資料輸送量。
NVIDIA網路事業部資深副總裁Gilad Shainer表示,AI正成爲關鍵業務,需要更高的效能、安全性、擴充能力和成本效益。設計NVIDIA Spectrum-X乙太網路平台的目的,就是要為xAI這一類創新公司能夠更快速處理、分析和執行AI工作負載,以加速開發、部署 AI 解決方案,並且更快推向市場。
特斯拉執行長Elon Musk在X上表示,Colossus是世界上最強大的訓練系統。xAI團隊、NVIDIA及眾多合作夥伴與供應商表現非常出色。
xAI的發言人表示,xAI建造出世界上最大、最強大的超級電腦。NVIDIA的Hopper GPU加上Spectrum-X將能夠突破大規模訓練AI模型的界限,並在乙太網路標準基礎上,建造一個擁有超級加速、並最佳化的AI工廠。