大模型技術(shù)因其良好的通用性與泛化性,顯著降低了人工智能應(yīng)用的門(mén)檻,其溢出效應(yīng)正在加速推進(jìn)新一輪的科技革命和社會(huì)產(chǎn)業(yè)的變革。尤其是以ChatGPT為代表的生成式人工智能應(yīng)用的出現(xiàn),使大模型的發(fā)展成為AI領(lǐng)域最重要的熱點(diǎn)趨勢(shì),越來(lái)越多的科技巨頭競(jìng)相推出千億、萬(wàn)億參數(shù)的大模型。而訓(xùn)練超大參數(shù)規(guī)模的大模型也給智能計(jì)算基礎(chǔ)設(shè)施帶來(lái)了前所未有的挑戰(zhàn)。大模型的訓(xùn)練過(guò)程需要數(shù)千張GPU卡協(xié)同計(jì)算數(shù)周或數(shù)月,這就要求智能計(jì)算網(wǎng)絡(luò)能夠提供更強(qiáng)大的性能和更高的穩(wěn)定性與可靠性。
超擎數(shù)智憑借對(duì)高速率網(wǎng)絡(luò)發(fā)展趨勢(shì)的理解,和豐富的高性能網(wǎng)絡(luò)項(xiàng)目實(shí)施經(jīng)驗(yàn),基于NVIDIA Quantum-2 InfiniBand平臺(tái)為客戶(hù)提供NDR (Next Data Rate)網(wǎng)絡(luò)產(chǎn)品應(yīng)用與連接方案。NVIDIA Quantum-2 InfiniBand平臺(tái)以超高的帶寬、超低的傳輸延時(shí)以及極簡(jiǎn)的運(yùn)維成為了人工智能和超大規(guī)模數(shù)據(jù)中心的首選。與上一代產(chǎn)品相比,Quantum-2實(shí)現(xiàn)了兩倍的端口速度,三倍的交換機(jī)端口密度,五倍的交換機(jī)系統(tǒng)容量,以及32倍的交換機(jī)AI加速能力。如果采用Dragonfly+拓?fù)?基于Quantum-2的網(wǎng)絡(luò)可在3個(gè)hop內(nèi)實(shí)現(xiàn)百萬(wàn)余個(gè)節(jié)點(diǎn)的400Gb/s連接能力。可為AI開(kāi)發(fā)者和科研人員提供超強(qiáng)網(wǎng)絡(luò)性能,幫助他們應(yīng)對(duì)全球極具挑戰(zhàn)的問(wèn)題。
Quantum-2 InfiniBand交換機(jī)
超擎數(shù)智提供基于NVIDIA Quantum-2的QM9700和QM9790交換機(jī)。NVIDIA Quantum-2盒式交換機(jī)主要有兩個(gè)型號(hào):QM9790和QM9700,兩者主要區(qū)別在于管理方式,QM9700帶管理接口,支持外部管理,而QM9790不支持,在端口形態(tài)、速率上則沒(méi)有任何區(qū)別。QM9700系列交換機(jī)支持64個(gè)400G端口、或128個(gè)200G端口的靈活搭配,需要注意的是QM9700采用的1U的設(shè)計(jì),單面板32*OSFP端口,每個(gè)OSFP端口支持2X400G速率,在交換機(jī)內(nèi)部則以IB1/**/1、IB1/**/2的形式展示64個(gè)400G端口的信息。
NVIDIA Quantum-2搭載第三代NVIDIA SHARP技術(shù),能夠?yàn)楦鞣N規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)聚合創(chuàng)造幾乎無(wú)限的可擴(kuò)展性,其AI加速能力將達(dá)至前一代的32倍。此外,第三代SHARP技術(shù)可在不降低性能的情況下,支持多個(gè)租戶(hù)或多個(gè)并行應(yīng)用共享基礎(chǔ)設(shè)施。MPI_Alltoall加速和MPI標(biāo)簽匹配硬件引擎以及其他功能(如高級(jí)擁塞控制、動(dòng)態(tài)路由以及自我修復(fù)網(wǎng)絡(luò))可為高性能計(jì)算(HPC)和AI集群提供至關(guān)重要的增強(qiáng)功能,從而使其性能更上一層樓。
ConnectX-7 HCA網(wǎng)卡
NVIDIA ConnectX@-7 InfiniBand網(wǎng)卡(HCA) ASIC可提供400Gb/s的數(shù)據(jù)吞吐量,并支持16通道的PCle5.0或PCle4.0主機(jī)接口。400Gb/s lnfiniBand采用先進(jìn)的每通道100Gb/s的SerDes,通過(guò)交換機(jī)和HCA端口上的OSFP連接器實(shí)現(xiàn)物理連接。每個(gè)交換機(jī)OSFP連接器支持兩個(gè)400Gb/s InfiniBand端口或200Gb/s InfiniBand端口。網(wǎng)卡HCA的OSFP連接器支持一個(gè)400Gb/s InfiniBand端口。400Gb/s線纜產(chǎn)品包括有源及無(wú)源銅纜、收發(fā)器以及MPO光纜。需要注意的是,雖然網(wǎng)卡與交換機(jī)都采用的OSFP封裝,但在物理尺寸上有所區(qū)別:交換機(jī)端的OSFP模塊帶散熱鰭片,而網(wǎng)卡端采用OSFP-RHS結(jié)構(gòu)不帶散熱片,依靠網(wǎng)卡端口上的散熱片輔助模塊進(jìn)行散熱。
NDR光連接解決方案
超擎數(shù)智提供靈活的NDR光連接解決方案,NDR交換機(jī)端口的物理形態(tài)是OSFP,每個(gè)接口有八個(gè)通道,每通道采用100Gb/s的SerDes;所以從連接速率上來(lái)看,有800G to 800G、800G to 2X400G與800G to 4X200G三種主流連接方案;同時(shí),每個(gè)通道支持從100Gb/s降至50Gb/s,所以它也可以與上一代HDR(HDR采用50Gb/s的SerDes)設(shè)備互連,即可以支持400G to 2X200G。
NDR系列電纜和收發(fā)器提供了豐富的產(chǎn)品選擇,用于配置任何網(wǎng)絡(luò)交換和適配器系統(tǒng),專(zhuān)注于長(zhǎng)達(dá) 2 公里的數(shù)據(jù)中心長(zhǎng)度,用于加速人工智能計(jì)算系統(tǒng)。為了最大限度地減少數(shù)據(jù)重傳,電纜和收發(fā)器都具有低延遲、高帶寬人工智能和加速計(jì)算應(yīng)用所需的極低誤碼率 (BER)。
從連接件類(lèi)型上來(lái)看,主要有三種方式:無(wú)源銅纜DAC、有源銅纜ACC與光模塊+跳線的方案。其中DAC支持1-3米的傳輸距離(其中直連DAC傳輸距離為2米),ACC支持3-5米的傳輸距離,多模光模塊最遠(yuǎn)支持50米傳輸距離,單模光模塊最遠(yuǎn)支持500米傳輸距離。
超擎數(shù)智NDR交換機(jī)到NDR設(shè)備連接方案
NDR InfiniBand Quantum-2交換機(jī) —— NDR InfiniBand Quantum-2交換機(jī)
1、NDR光模塊
多模光模塊——MMA4Z00-NS(50m)
單模光模塊——MMS4X00-NS(100m)、MS4X00-NM(500m)
① Single 2x400Gb/s OSFP - Single 2x400Gb/s OSFP:使用OSFP雙端口收發(fā)器和兩根直連MPO-12/APC光纖跳線以 800G (2x400G) 速率將兩臺(tái)OSFP端口的 QM9700/QM9790交換機(jī)連接在一起,多模最遠(yuǎn)傳輸距離可以達(dá)到50m,單模傳輸距離可以達(dá)到100m或500m;
② Single 2x400Gb/s OSFP - Dual 2x400Gb/s OSFP:使用OSFP雙端口收發(fā)器和兩根MPO-12/APC光纖跳線還可以路由到兩個(gè)不同的交換機(jī),形成兩條 400Gb/s 鏈路,然后將額外的OSFP端口路由到更多的交換機(jī)。
800G SR8連接示意圖
800G DR8 100m連接示意圖
800G DR8 500m連接示意圖
2、NDR Copper(DAC / ACC)
NDR Copper Cable的主要用途是將兩個(gè)雙端口、基于 OSFP 的 Quantum-2 InfiniBand 或 Spectrum-4 以太網(wǎng)交換機(jī)相互連接在一起,分為無(wú)源銅纜DAC和有源銅纜ACC,其中平頂Flat Top用于 DGX H800,翅片頂部Finned Top連接器用于 InfiniBand 或以太網(wǎng)交換機(jī)。
-MCP4Y10:無(wú)源銅纜(DAC),長(zhǎng)度最長(zhǎng)2m。
-MCA4J80:有源銅纜 (ACC),可將長(zhǎng)度延長(zhǎng)至 3、4 和 5 米,同時(shí)保持每端 1.5 瓦的極低延遲和極低功耗。
800G DAC連接示意圖
800G ACC連接示意圖
NDR InfiniBand Quantum-2交換機(jī) —— 2 x 400G ConnectX-7(OSFP/QSFP112)Adapter/BlueField-3 DPU(QSFP112)
1、NDR光模塊
交換機(jī)側(cè):800G Twin-port OSFP光模塊——MMA4Z00-NS(50m)、MMS4X00-NS(100m)
網(wǎng)卡側(cè):400G Single port OSFP/QSFP112光模塊——MMA4Z00-NS400 / MMA1Z00-NS400(50m)、MMS4X00-NS400(100m)
使用兩根光纖跳線的雙端口 OSFP 光模塊最多可支持兩個(gè)適配器和/或 DPU 組合。兩條 4 通道光纖跳線中的每一條都可以連接到 OSFP 或 QSFP112 封裝的 400G 光模塊,多模最遠(yuǎn)傳輸距離可達(dá) 50 米,單模最遠(yuǎn)傳輸距離可達(dá)100m。
-僅 ConnectX-7/OSFP 支持單端口 OSFP。
-QSFP112封裝光模塊可用于ConnectX-7/QSFP112和BlueField-3/QSFP112 DPU。
-使用 OSFP 或 QSFP112 的 ConnectX-7 和 BlueField-3 的任意組合可同時(shí)與雙端口 OSFP 光模塊連接使用。
800G SR8 —— 2x400G SR4連接示意圖
800G DR8 —— 2x400G DR4連接示意圖
2、NDR Copper(DAC /ACC)
800Gb/s 雙端口 OSFP至 2x400Gb/s OSFP/QSFP112 分支銅纜適用于 400Gb/s NVIDIA 端到端 Infiniband和以太網(wǎng)解決方案。主要用途是將 800Gb/s Quantum-2 交換機(jī)或 Spectrum-4 交換機(jī)連接到基于 OSFP/QSFP112 的 400Gb/s ConnectX-7 PCIe 網(wǎng)絡(luò)適配器卡/BlueField-3 DPU。
-單端口 OSFP僅適用于 ConnectX-7/OSFP 網(wǎng)絡(luò)適配器。
-BlueField-3/QSFP112 DPU 和 ConnectX-7/QSFP112 適配器需要 MCP7Y10 和 MCA7J65 銅纜上的 QSFP112 端。
-有源銅纜 (ACC) MCA7J60、MCA7J65的長(zhǎng)度可提供 4 米和 5 米。
OSFP - 2x400G OSFP DAC/ACC連接示意圖
OSFP - 2x400G QSFP112 DAC連接示意圖
NDR InfiniBand Quantum-2交換機(jī) —— 4 x 200G ConnectX-7(OSFP/QSFP112)Adapter/BlueField-3 DPU(QSFP112)
1、NDR Twin-port光模塊
交換機(jī)側(cè):800G Twin-port OSFP光模塊——MMA4Z00-NS(50m)、MMS4X00-NS(100m)
網(wǎng)卡側(cè):400G Single port OSFP/QSFP112光模塊——MMA4Z00-NS400 / MMA1Z00-NS400(50m)、MMS4X00-NS400(100m)
使用兩根 1:2 分支光纖跳線的雙端口 OSFP 光模塊最多可支持四個(gè)適配器和/或 DPU 組合。兩根 4 通道 1:2 分支光纖跳線中的每根都可以連接到 OSFP 或 QSFP112 封裝的 400G 光模塊,最遠(yuǎn)傳輸距離可達(dá) 50 米。在 400G 光模塊中僅激活其中的兩個(gè)通道,從而實(shí)現(xiàn) 200G 應(yīng)用。
-僅 ConnectX-7/OSFP 支持單端口 OSFP。
-QSFP112 封裝光模塊可用于 ConnectX-7/QSFP112 和BlueField-3/QSFP112 DPU。
-ConnectX-7 和 BlueField-3 網(wǎng)卡的任意組合可同時(shí)與雙端口OSFP 光模塊連接使用。
-單模直連光纖最大傳輸距離為 100 米,但 1:2 分支光纖跳線的最大傳輸距離為 50 米。
800G SR8 —— 4x200G SR2連接示意圖
800G DR8 —— 4x200G DR2連接示意圖
2、NDR Copper(DAC / ACC)
800Gb/s 雙端口 OSFP至 4x200Gb/s OSFP/QSFP112 分支銅纜適用于 400Gb/s NVIDIA 端到端 Infiniband和以太網(wǎng)解決方案。主要用途是將 800Gb/s Quantum-2 交換機(jī)或 Spectrum-4 交換機(jī)連接到基于 OSFP/QSFP112 的 200Gb/s ConnectX-7 PCIe 網(wǎng)絡(luò)適配器卡/BlueField-3 DPU。
-單端口 OSFP僅適用于 ConnectX-7/OSFP 網(wǎng)絡(luò)適配器。
-BlueField-3/QSFP112 DPU 和 ConnectX-7/QSFP112 適配器需要 MCP7Y40 和 MCA7J75銅纜上的 QSFP112 端。
-有源銅纜 (ACC) MCA7J70、MCA7J75的長(zhǎng)度可提供 4 米和 5 米。
OSFP - 4x200G OSFP DAC/ACC連接示意圖
OSFP - 4x200G QSFP112 DAC連接示意圖
NDR InfiniBand Quantum-2交換機(jī) —— DGX H800 GPU Systems
1、NDR光模塊
DGX-H800 在頂部機(jī)箱部分包含 8 個(gè)“Hopper”H800 GPU,在底部服務(wù)器部分包含兩個(gè) CPU、存儲(chǔ)以及 InfiniBand 和/或以太網(wǎng)網(wǎng)絡(luò)設(shè)備。其中包含八個(gè) 400Gb/s ConnectX-7 IC,安裝在兩個(gè)稱(chēng)為“Cedar-7”板卡的夾層板上,用于 GPU 到 GPU InfiniBand 或以太網(wǎng)網(wǎng)絡(luò)。板卡 I/O 在內(nèi)部路由至四個(gè) 800G 雙端口 OSFP 機(jī)箱,內(nèi)置散熱器安裝于前面板上的機(jī)箱頂部。這需要在 DGX H800 中使用flat-top transceivers、ACC 和 DAC 線纜。由于交換機(jī)中的氣流入口減少,400G IB/EN 交換機(jī)需要使用finned-top 2x400G 光模塊進(jìn)行額外冷卻。
每個(gè)雙端口 2x400G 光模塊提供兩條從 DGX 到 Quantum-2 或 Spectrum-4 交換機(jī)的 400G ConnectX-7 鏈路。與 DGX A800 相比,這減少了 ConnectX-7 板卡冗余、復(fù)雜性和光模塊數(shù)量,DGX A800 使用 8 個(gè)獨(dú)立的 HCA 和 8 個(gè)光模塊或 AOC 線纜以及兩個(gè)用于 InfiniBand 或以太網(wǎng)存儲(chǔ)的附加 ConnectX-6。
此外,對(duì)于存儲(chǔ)、集群和管理的傳統(tǒng)網(wǎng)絡(luò),DGX-H800 還支持多達(dá)四個(gè) ConnectX-7 和/或兩個(gè) BlueField-3 DPU 在 InfiniBand 和/或以太網(wǎng)中用于存儲(chǔ) I/O,以及支持使用 OSFP 或 QSFP112 光模塊的 400G 或 200G 設(shè)備進(jìn)行的額外網(wǎng)絡(luò)。這些 PCIe 卡槽位于OSFP GPU機(jī)箱的兩側(cè),并使用單獨(dú)的電纜和/或光模塊。
800G SR8連接示意圖
800G DR8連接示意圖
2、NDR Copper(DAC / ACC)
OSFP 平頂端Flat Top線纜可用于液冷交換機(jī)和 DGX H800 系統(tǒng),其中,MCP4Y10-N0XX-FLT無(wú)源DAC電纜長(zhǎng)度為0.5m和1m,MCA4J80有源ACC電纜連接到DGX-H800 Cedar 系統(tǒng)可使用的長(zhǎng)度為3m。
800G DAC連接示意圖
800G ACC連接示意圖
超擎數(shù)智NDR交換機(jī)到HDR設(shè)備連接方案
NDR InfiniBand Quantum-2交換機(jī) —— 2 x HDR InfiniBand Quantum交換機(jī)
NDR InfiniBand Quantum-2交換機(jī) —— 2 x 200G QSFP56 ConnectX-6 Adapter/BlueField-2 DPU
MFA7U10-H00X是一款 OSFP 至 2x QSFP56、400Gb/s 至 2 x 200Gb/s 有源分光器電纜 (AOC),將來(lái)自單個(gè) OSFP 端上的 8 個(gè) MMF(多模光纖)對(duì)中的每對(duì)數(shù)據(jù)信號(hào)連接到每個(gè) QSFP56 多端口端的四對(duì)。MFA7U10-H00X用于將帶有 OSFP 端口的 NDR 交換機(jī)連接到基于QSFP56 端口的2 個(gè)HDR 交換機(jī)或ConnectX-6適配器/BlueField-2 DPU 。
400G OSFP - 2x200G QSFP56 AOC線纜連接示意圖