構(gòu)建任何復(fù)雜系統(tǒng)都是其各部分的總和,但最基礎(chǔ)的元素是將它們綁定在一起的東西。在磚塊中,是砂漿;在木材中,是釘子;而在數(shù)據(jù)中心中,則是網(wǎng)絡(luò)。去年,英偉達(dá) CEO 黃仁勛宣稱"數(shù)據(jù)中心是新的計(jì)算單元"。這意味著整個(gè)數(shù)據(jù)中心應(yīng)被視為單一系統(tǒng),就像芯片系統(tǒng) (SoC) 或服務(wù)器一樣。將所有這些獨(dú)立元素(包括處理、內(nèi)存和存儲(chǔ))組合到一個(gè)平臺(tái)中,需要一個(gè)復(fù)雜、高性能、低延遲的網(wǎng)絡(luò)。
披露:我的公司 Tirias Research 曾為英偉達(dá)和本文提到的其他公司提供咨詢服務(wù)。
2024 年,英偉達(dá)推出了新的 Blackwell GB200 GPU AI 加速器,與 Grace CPU 結(jié)合在新的 NVL72 機(jī)架服務(wù)器配置中。雖然 GPU 和機(jī)架配置是且仍然是行業(yè)領(lǐng)先的解決方案,但真正的明星是 NVLink 交換機(jī),它允許所有 72 個(gè) GPU 互連并作為單一 GPU 運(yùn)行,本質(zhì)上是服務(wù)器和機(jī)架的基礎(chǔ)。因?yàn)樗荚谕粋€(gè)機(jī)架中,所以被稱為縱向擴(kuò)展解決方案。2025 年,英偉達(dá)正尋求通過新的同封裝光學(xué)網(wǎng)絡(luò)解決方案在整個(gè)數(shù)據(jù)中心橫向擴(kuò)展網(wǎng)絡(luò)。
據(jù)英偉達(dá)稱,它與多家行業(yè)合作伙伴合作開發(fā)了 Quantum-X InfiniBand 和 Spectrum-X 以太網(wǎng)硅光子網(wǎng)絡(luò)交換機(jī),在網(wǎng)絡(luò)模塊上采用同封裝光學(xué)技術(shù)。此外,英偉達(dá)還推出了三款新的液冷光學(xué)網(wǎng)絡(luò)交換機(jī)。由于 AI 數(shù)據(jù)中心(尤其是 AI 工廠)的高網(wǎng)絡(luò)需求,光學(xué)網(wǎng)絡(luò)已經(jīng)很常見。雖然它在性能提升和延遲減少方面提供了顯著優(yōu)勢(shì),但在功耗、空間、復(fù)雜性和成本方面也帶來了代價(jià)。據(jù)英偉達(dá)稱,一個(gè) AI 工廠可使用多達(dá) 240 萬個(gè)光學(xué)收發(fā)器,消耗高達(dá) 24MW 的功率,可能占到整個(gè)數(shù)據(jù)中心功耗的 10% 以上。
與傳統(tǒng)光學(xué)收發(fā)器相比,英偉達(dá)聲稱 Spectrum-X 硅光子網(wǎng)絡(luò)交換機(jī)可將激光器數(shù)量減少 4 倍,功率效率提高 3.5 倍,信號(hào)完整性提高 63 倍,網(wǎng)絡(luò)彈性提高 10 倍,網(wǎng)絡(luò)部署時(shí)間縮短 1.3 倍。這些改進(jìn)對(duì)于滿足智能代理 AI 的需求至關(guān)重要,智能代理 AI 可能需要比分布在數(shù)據(jù)中心資源上的生成式 AI 工作負(fù)載多出數(shù)百倍的資源。英偉達(dá)新的網(wǎng)絡(luò)解決方案將使數(shù)據(jù)中心能夠繼續(xù)隨著 AI 需求的增長(zhǎng)而擴(kuò)展。
雖然這一公告對(duì)英偉達(dá)是一個(gè)提振,但對(duì)整個(gè)行業(yè)來說是一個(gè)里程碑。同封裝光學(xué)解決方案自 2000 年以來一直在開發(fā)中,但由于技術(shù)和制造挑戰(zhàn)(如光纖耦合和光源集成)而未進(jìn)入大規(guī)模生產(chǎn)。雖然業(yè)界一致認(rèn)為同封裝光學(xué)技術(shù)是不可避免的,但許多人仍然認(rèn)為大規(guī)模生產(chǎn)的解決方案可能還需要幾年時(shí)間。然而,在其合作伙伴的協(xié)助下,英偉達(dá)聲稱已經(jīng)克服了這些挑戰(zhàn),并準(zhǔn)備從今年晚些時(shí)候開始批量生產(chǎn)。英偉達(dá)的合作伙伴包括 Browave、Coherent、Corning、Fabrinet、富士康、Lumentum、Senko、SPIL、住友電氣、TFC 和臺(tái)積電。
除了新的網(wǎng)絡(luò)解決方案外,英偉達(dá)還發(fā)布了大量其他公告,包括:
英偉達(dá)宣布了數(shù)據(jù)中心 GPU 的未來三代產(chǎn)品 - Blackwell Ultra、Rubin 和 Rubin Ultra
面向 AI 開發(fā)者的新型 DGX Spark(前身為 Project Digits)和 DGX Station 系統(tǒng)
Blackwell DGX SuperPOD,一個(gè)開箱即用的 AI 工廠
用于開發(fā)和最大化智能代理 AI 解決方案的多種新模型/庫(kù)和軟件解決方案
即使有所有這些其他公告,網(wǎng)絡(luò)仍然是黃仁勛主題演講和 GTC 連續(xù)第二年的亮點(diǎn)。它不僅提高了數(shù)據(jù)中心的性能效率,還推進(jìn)了對(duì)整個(gè)行業(yè)至關(guān)重要的技術(shù)。雖然今天的目標(biāo)是機(jī)架到機(jī)架的橫向擴(kuò)展連接,但隨著行業(yè)推動(dòng)銅互連的極限,未來可能會(huì)針對(duì)內(nèi)部機(jī)架縱向擴(kuò)展網(wǎng)絡(luò)。