01.引言NVIDIANVL72系统代表了新一代GPU丛集架构的重要演进,专为人工智能和高效能运算工作负载而设计。本文将探讨GB200和GB300系统的光纤连接解决方案,包括InfiniBand和Ethernet两种协定的实施方法,以及如何透过Corning的EDGE8®解决方案来建构高密度、可扩展的数据中心基础架构[1]。
02.NVL72系统架构概述与收发器技术
NVIDIANVL72系统采用模块化设计,每个机柜包含18个运算节点,共72个GPU。系统支援两种主要的网络协定:InfiniBand和Ethernet,分别适用于不同的部署需求。在GB200系统中,每个GPU透过ConnectX-7网络界面卡提供400GNDR连接能力;而GB300系统则采用ConnectX-8网络界面卡,支援800GXDR的更高频宽。
光收发器技术是整个系统连接的核心。NVIDIA提供多种收发器选项,涵盖不同的速率和界面类型。对于400GNDR应用,双埠OSFP收发器如MMS4X00-NM和MMS4X00-NS提供2x8光纤连接界面,分别支援500公尺和100公尺的传输距离。这些收发器采用MPO-8/12APC界面,其中APC代表AngledPolishConnector,使用绿色塑料外壳标示,与传统的UPC界面不兼容。在800GXDR应用中,MMS4A00收发器提供1600G的双埠能力,而MS4A20-XM800则为单埠800G方案。
多模光纤收发器如MMA4Z00-NS系列采用OM4光纤,支援50公尺的传输距离,适合机柜内或同列设备间的短距离连接。这些收发器使用水色光纤和棕褐色拉环标示,与单模收发器的黄色标示形成明确区分。值得注意的是,某些400G收发器可透过Y型分离线缆支援200G运作,启用8根光纤中的4根,提供部署弹性。
图1:NDR和XDR收发器的完整规格列表,包括OSFP和QSFP112界面类型,以及单模和多模光纤的应用场景。03.点对点布线场景与结构化布线架构
NVL72系统的布线方案可分为六种主要场景,每种场景针对特定的连接需求和距离要求进行优化。场景一针对服务器到交换器或交换器间的点对点连接,使用MPO-8/12APC界面。此场景适合同一机柜或同列设备间的连接,但不建议用于跨数据中心不同区域的设备连接。在此配置中,可选择传统的单根8光纤跳线或CORE-Trunk多光纤整合方案。
CORE-Trunk是Corning开发的创新解决方案,将多条8光纤MPO-8/12APC连接整合为单一多光纤单元,外覆阻燃护套。一条144光纤的CORE-Trunk可取代18条独立跳线,大幅简化布线管理。这些整合线缆提供5到300公尺的长度选项,支援16、18、32、36等多种分支数量配置,可选择直线或交错分支设计以优化空间利用。
场景二引入结构化布线概念,适合跨数据中心不同区域的交换器间连接。此架构采用EDGE8系统作为骨干,包括三个关键组件:从交换器到配线板的CORE-Trunk或跳线、EDGE832埠MTP配线板以及144光纤的EDGE8Trunk骨干线缆。配线板采用4埠设计,支援高密度连接,而骨干线缆可提供8到288光纤的容量,搭配33英寸分支线和Type-B极性设计。
图2:结构化布线的完整路径,展示从主动设备经配线板到骨干线缆的连接逻辑。对于需要支援200G速率的场景三和场景四,系统采用Y型分离线缆。这种特殊设计的线缆将一个MPO-8/12APC连接器分离为两个4光纤连接器,分支长度为36英寸。透过启用400G收发器中四个通道的其中两个,可建立两个独立的200G连接。此配置在点对点和结构化布线环境中均适用,提供灵活的频宽分配选项。
场景五和场景六专门针对使用LCDuplex界面的应用,主要用于Quantum-2或Spectrum-4气冷式交换器的连接。这些收发器采用TwinLC-DuplexOSFP界面,支援2公里的最大传输距离,收发器本体上的亮绿色标记表示此规格。在结构化布线实施中,系统使用EDGE8Ultra-Low-Loss模块将LCduplex转换为MPO连接,然后透过144光纤EDGE8Trunk进行跨数据中心传输。
04.可扩展单元架构与Rail优化设计
可扩展单元(ScalableUnit,简称SU)是NVL72丛集的基本建构模块。对于InfiniBandGB200和GB300系统,每个SU包含16个NVL72机柜,共1152个GPU。对于EthernetGB200系统,每个SU包含4个NVL72机柜。这种模块化设计使得系统可以快速部署并扩展到不同规模。
SU的实体布局具有高度弹性。单列配置将所有机柜排列在同一行,Leaf交换器、Spine交换器和其他基础设施元件整合在同一区域。双列配置则将机柜分散在两行,中间形成热通道或湿通道,提供更好的冷却效能。对于需要Core交换器层级的大型部署,可采用三层架构,将Core交换器集中在独立区域,透过结构化布线与各个SU连接。
Rail优化是NVL72架构的关键特征。不同于DGXSuperPODH100/H200的8-Rail架构,NVL72系统采用4-Rail设计。一个Rail是指将每个节点相同埠号的HostChannelAdapters(HCA)连接到同一Leaf交换器的逻辑分组。例如,一个NVL72机柜中18台服务器的Port1连接代表Rail1,Port2连接代表Rail2,依此类推。
每个Rail的18个连接会路由到专属的Leaf交换器,这意味着每个NVL72机柜的每个Rail需要一个Leaf交换器。由于SU包含16个NVL72机柜,系统共需64个Leaf交换器,每个Rail16个。与DGXSuperPOD架构不同的是,NVL72SU还包含Spine交换器层级。对于16个NVL72GB200SU,每个Rail配置9个Spine交换器,分别整合在四个Spine交换器机柜中。
图3:SU的多种布局选项,包括单列、双列和三层架构配置,以及相关的运算架构和交换器配置。05.交换器技术与埠映射策略
NVIDIA为NVL72系统提供多种交换器选项,根据资料速率和协定选择不同型号。对于InfiniBand400GNDR应用,Quantum-2QM9700交换器提供32个OSFPTwinMPO-8/12APC埠,相当于64个单埠400GNDR连接。此1U交换器有两种气流方向型号:MQM9700-NS2F采用power-to-connector(P2C)正向气流,而MQM9700-NS2R则采用connector-to-power(C2P)反向气流。
在InfiniBand800GXDR应用中,Quantum-3系列提供两种选择。Q3400-RA为4U交换器,配备72个OSFPTwinMPO-8/12APC埠,提供144个800GXDR埠,可作为Leaf、Spine或Core交换器使用。Q3200-RA则为2U外壳,内含两个独立的18埠OSFP交换器,两者之间无通讯连接。每侧提供36个800GXDR埠,整个外壳总计72埠,主要用作Leaf交换器。
对于Ethernet应用,Spectrum-4系列包括SN5600和SN5400两种型号。SN5600为2U交换器,配备64个OSFPTwinMPO-8/12APC埠,提供128个400G埠,可作为Leaf、Spine或Core交换器。SN5400同为2U规格,但配备64个QSFP-DD单MPO-8/12APC埠,提供64个400G埠,主要用作Leaf交换器。
埠映射策略对于维护网络拓扑和简化故障排除至关重要。以Quantum-2交换器为例,32个OSFP埠可映射为64个逻辑埠。在Leaf交换器中,前32个埠连接到服务器机柜,后32个埠连接到Spine交换器。在Spine交换器中,前32个埠连接到Leaf交换器,后32个埠连接到Core交换器。这种一致的映射方法使得网络管理员能快速识别连接关系并进行故障诊断。
图4:Quantum-2交换器的埠映射范例,展示在Leaf、Spine和Core角色下的埠分配策略。06.LevelA布线:服务器到Leaf交换器连接
LevelA布线涵盖从NVL72机柜内的服务器到Leaf交换器的所有连接。在16SU丛集范例中,此层级需要1152个MPO-8/12APC连接,可选择使用1152条独立8光纤跳线或64条144光纤CORE-Trunk来实现。
CORE-Trunk方案显著简化布线复杂度。每个NVL72机柜使用4条CORE-Trunk,每条对应一个Rail。例如,代表Rail1的144光纤CORE-Trunk从NVL72Rack1路由到Leaf交换器Rack1,该机柜整合所有Rail1的连接。每条CORE-Trunk包含18个来自Rail1的连接,对应机柜内18台服务器的相同埠号。相同逻辑应用于Rail2、3、4,分别连接到对应的Leaf交换器机柜2、3、4。
布线过程遵循严格的映射规则。Rail1从NVL72Rack1连接到Leaf-01交换器的埠1-18,Rail1从NVL72Rack2连接到Leaf-02交换器的埠1-18,依此类推。在包含16个NVL72机柜的SU中,Rail1在每个Leaf交换器上完成前18个埠连接(总共64个埠中的18个)。每个Leaf交换器还提供18个上行埠连接到Spine交换器。此过程在所有NVL72机柜的每个Rail上重复执行,确保SU的连接完整映射。
对于需要在SU内实施结构化布线或改善映射和线缆管理的场景,可在NVL72机柜到Leaf交换器机柜的布线中选择性加入配线板。配线板可安装在NVL72机柜顶部或Leaf交换器机柜底部,提供组织化的连接点。使用CORE-Trunk时,配线板特别有助于管理多条大容量线缆的转接和标识。
图5:使用CORE-Trunk的LevelA布线完整路径,说明从NVL72机柜到Leaf交换器机柜的连接逻辑和Rail映射关系。传统跳线方案虽然需要更多线缆数量,但在某些情况下仍具优势。对于短距离连接或需要灵活调整个别连接的环境,使用1152条独立跳线可提供最大弹性。线缆长度可根据实际机柜间距离客制化,从1公尺到300公尺不等。NVIDIA和Corning均提供符合InfiniBand、Ethernet和NVLink协定的跳线选项,确保与所有NVIDIA平台的兼容性。
07.LevelB布线:Leaf到Spine交换器连接
LevelB布线处理Leaf交换器到Spine交换器间的连接,由于这些交换器通常位于同一SU内,可选择点对点布线或结构化布线。在16SU丛集中,此层级同样需要1152个MPO-8/12APC连接。
使用CORE-Trunk时,单条144光纤线缆可将Leaf-01的18个埠连接到Spine交换器机柜内每个Spine交换器的2个埠。这种设计使得每条CORE-Trunk处理来自Rail1的18个连接,简化布线并降低复杂度。相同原则应用于Rail1内的其他16个Leaf交换器,每个Leaf交换器使用相同的CORE-Trunk配置建立到Spine交换器机柜的连接。
连接逻辑遵循严格的分配模式。以Rail1为例,Leaf-01交换器的埠33-50透过CORE-Trunk连接到9个Spine交换器,每个Spine交换器接收2个埠连接。这种2埠分配模式确保流量在Spine层级的均匀分散,避免瓶颈产生。Leaf-02到Leaf-16交换器重复相同的连接模式,最终每个Spine交换器在Rail1中累积32个来自不同Leaf交换器的连接。
为改善线缆管理,可在Leaf交换器机柜和Spine交换器机柜处加入配线板。在Leaf交换器机柜顶部的配线板提供上行连接的组织化出口,而在Spine交换器机柜底部或中部的配线板则提供下行连接的集中点。使用EDGE84U高密度外壳搭配配线板时,单个外壳可支援多达2304根光纤的连接,为大规模部署提供充足容量。
图6:Leaf到Spine的LevelB布线架构,展示CORE-Trunk如何将Leaf交换器的18个埠分配到9个Spine交换器。结构化布线在LevelB层级的实施提供额外优势。当SU布局需要Leaf和Spine交换器机柜分散在不同位置时,结构化布线透过集中式配线板和骨干线缆提供灵活的路由选项。EDGE8Trunk骨干线缆支援长达300公尺的距离,足以覆盖大多数数据中心内的空间需求。配线板的使用还简化未来的扩展和重新配置工作,因为改变连接只需在配线板处调整跳线,而无需重新布置骨干线缆。
四个Rail的相同布线和映射概念确保网络的一致性。Rail2、3、4各自拥有独立的Leaf交换器机柜和Spine交换器机柜,每个包含16个Leaf交换器和9个Spine交换器。这种Rail隔离设计提供故障域隔离,单一Rail的问题不会影响其他Rail的运作,增强系统整体可靠性。
08.LevelC布线:Spine到Core交换器连接
LevelC布线连接Spine交换器到Core交换器,对于2个或更多SU的丛集部署至关重要。由于Core交换器通常集中在数据中心的独立区域,结构化布线成为此层级的推荐方案。在16SU丛集范例中,需要额外的1152个MPO-8/12APC连接。
结构化布线架构包含五个关键元件。首先,从Spine交换器机柜到配线板的连接可使用128光纤CORE-Trunk或独立跳线,每个Spine交换器机柜需要18条CORE-Trunk或288条跳线。其次,Spine交换器机柜处需要高密度EDGE84U外壳配线板,16SU丛集需要64个此类外壳,每个Spine交换器机柜8个。
第三个元件是EDGE8Trunk骨干线缆,负责SU区域的Spine交换器机柜与集中式Core区域的Core交换器机柜间的长距离连接。总共需要1024条144光纤EDGE8Trunk,每条支援长达500公尺的传输距离。这些骨干线缆采用Type-B极性设计,配备33英寸分支线和仅在首端的拉环,优化布线效率。
第四个元件是Core交换器机柜处的配线板,同样使用EDGE84U外壳,共需64个外壳分散在Core交换器机柜区域。最后,从配线板到Core交换器机柜的连接再次使用128光纤CORE-Trunk或独立跳线,总计144条CORE-Trunk或2304条跳线。
图7:LevelC的完整结构化布线架构,包括CORE-Trunk、配线板、EDGE8Trunk骨干线缆和Core交换器的连接关系。Core交换器的分组逻辑反映Spine层级的架构。在16SU丛集中,有9个CoreGroup分散在18个Core机柜中,每个机柜包含16个Core交换器,每个Group共32个。这种分组源于每个Rail有9个Spine交换器的配置。CoreGroup1接收所有Rail中所有Spine-01交换器的连接,CoreGroup2接收所有Spine-02交换器的连接,依此类推。
连接分配遵循精确的数学关系。例如,每个Spine-01交换器从每个Rail转发1个MPO连接到CoreGroup1中的Core-01交换器。在16SU丛集中,这相当于4个Rail×16个POD=64个进入Core-01交换器的MPO连接,完全使用Quantum-2交换器的64埠容量。这种均衡分配确保Core层级不会出现过度订阅,维持非阻塞通讯能力。
配线板在LevelC布线中扮演关键角色。EDGE84U外壳可容纳72个模块或配线板,支援高达2304根光纤的连接。对于16SU丛集,Spine侧需要64个外壳(每个Spine机柜8个×8个机柜),Core侧同样需要64个外壳。配线板使用MPO-8/12APC连接器,与CORE-Trunk和EDGE8Trunk完全兼容,确保整个路径的极性一致性。
09.丛集规模扩展与布线计算
NVL72丛集可从1个SU扩展到16个SU,每个规模级别都有特定的组件和布线需求。对于1SU丛集,存在两种配置选项。非可扩展丛集使用64个Leaf交换器和18个Spine交换器,采用两层设计,仅需1152个Node-Leaf连接和1152个Leaf-Spine连接,但无法进一步扩展。可扩展丛集则使用64个Leaf交换器和36个Spine交换器,虽然初始成本较高,但为未来扩展到2个或更多SU预留能力,透过增加Core交换器层级转换为三层架构。
2SU丛集包含32个NVL72机柜、576个节点、2304个GPU、128个Leaf交换器、72个Spine交换器和36个Core交换器。此配置需要2304个Node-Leaf连接、2304个Leaf-Spine连接和2304个Spine-Core连接,总计6912个连接。使用CORE-Trunk方案,可将Node-Leaf和Leaf-Spine层级的4608条跳线减少为256条CORE-Trunk,Spine-Core层级则使用128条EDGE8Trunk骨干线缆搭配288条CORE-Trunk。
4SU丛集将规模倍增至64个NVL72机柜、1152个节点、4608个GPU,需要256个Leaf交换器、144个Spine交换器和72个Core交换器。连接需求同样倍增至每层级4608个,总计13824个连接。CORE-Trunk方案在此规模下的优势更加明显,Node-Leaf和Leaf-Spine各使用256条CORE-Trunk取代9216条跳线,Spine-Core使用256条EDGE8Trunk骨干线缆搭配576条CORE-Trunk。
图8:4SU丛集的完整架构图,展示NVL72机柜、Leaf交换器、Spine交换器和集中式Core区域的布局关系。8SU和16SU丛集代表大规模部署场景。8SU丛集包含128个NVL72机柜、2304个节点、9216个GPU,需要512个Leaf交换器、288个Spine交换器和144个Core交换器,每层级9216个连接。16SU丛集则达到256个NVL72机柜、4608个节点、18432个GPU,需要1024个Leaf交换器、576个Spine交换器和288个Core交换器,每层级18432个连接。在这些规模下,CORE-Trunk和结构化布线成为实际可行的唯一方案,传统跳线方式将导致难以管理的布线密度。
布线计算需考虑光纤类型的选择。多模光纤(OM4)适合50公尺以内的连接,通常用于LevelA和LevelB布线。单模光纤(OS2)支援长达500公尺的距离,推荐用于LevelC布线,因为Spine和Core交换器通常位于数据中心的不同区域。部分设计也在LevelA和LevelB使用单模光纤,以提供未来重新配置的弹性。
配线板和外壳数量随丛集规模线性增长。16SU丛集在LevelC需要128个EDGE84U外壳(Spine侧64个+Core侧64个),每个外壳可支援2304根光纤连接。这种高密度解决方案使得即使在最大规模部署中,配线板也能有效管理数万根光纤的转接。EDGE8系统的模块化设计允许根据实际需求选择1U、2U或4U外壳,平衡密度和可及性需求。
10.GB300系统的双平面与四平面架构
GB300系统引入更高的网络复杂度和频宽能力。GB300Ethernet采用双平面或四平面拓扑,每个GPU连接到两个或四个独立平面以实现负载平衡和冗余。在双平面设计中,每个SU包含2个GB300NVL72机柜(144个GPU),使用Spectrum-4SN5600交换器。每个GPU配备2个MPO-8/12连接(2×400G),相当于每个NVL72机柜144个MPO-8/12后端连接。
四平面拓扑是三层架构的替代方案,透过将网络扁平化为两层设计(移除SuperSpine)但引入额外平面来增加频宽和降低拥塞。四平面将网络分为4个200G平面,使交换器基数倍增(从128个400G埠到256个200G埠),允许更多SU和更高GPU密度。GPU对四平面设定保持透明,因为它持续看到800G界面进行丛集内通讯。
ShuffleBox是四平面设计中管理布线复杂度的关键组件,允许使用两层(Leaf-Spine)架构部署大量GPU。ShuffleBox可放置在服务器与Leaf交换器之间,或Leaf交换器与Spine交换器之间。例如,18432GPU丛集使用四平面拓扑搭配ShuffleBox可维持两层设计,而相同规模的双平面丛集则需要三层架构(Leaf-Spine-SuperSpine)。
图9:四平面拓扑的架构图,说明ShuffleBox如何在两层设计中实现18432个GPU的连接。GB300InfiniBand保持4-Rail架构但采用双平面拓扑。每个SU仍包含16个NVL72机柜,但每个GPU使用1个MPO-8/12连接提供800GXDR,相当于每个机柜72个MPO-8/12连接。Quantum-3Q3200-RA交换器作为Leaf交换器,每个2U外壳包含两个独立的18埠交换器,提供2×36个800GXDR埠。Q3400-RA作为Spine和Core交换器,4U外壳提供144个800GXDR埠。
GB300系统的布线方案延续GB200的逻辑,但需要调整以适应不同的埠数量和拓扑要求。对于GB300Ethernet双平面配置,丛集规模从1SU(144GPU)可扩展到32SU(4608GPU)。每个SU包含2个NVL72机柜、36个节点、8个Leaf交换器和4个Spine交换器,需要288个Node-Leaf连接和288个Leaf-Spine连接。较大的部署可能需要SuperSpine层级,将多个Spine-Leaf群组连接起来以实现数千GPU或机柜的可扩展性。
GB300InfiniBand的组件计数与GB200类似,但交换器型号不同。1SU配置使用32个Q3200-RALeaf交换器(每个提供2×36埠)和16个Q3400-RASpine交换器。16SU丛集扩展到512个Leaf交换器、256个Spine交换器和128个Core交换器,每层级需要18432个连接。CORE-Trunk和EDGE8结构化布线方案完全适用于GB300部署,确保与GB200系统的一致性和互操作性。
11.极性管理与连接器标准
极性管理是光纤布线成功的关键要素。TIA-568Type-B极性标准广泛应用于NVL72系统,确保发送(Tx)和接收(Rx)光纤在整个连接路径中正确配对。在TwinMPO-8/12APC收发器中,第一个MPO连接器使用光纤1-4进行Tx、光纤5-8进行Rx,第二个MPO连接器使用相同配置。透过Type-B跳线,一端的Tx光纤连接到另一端的Rx光纤,维持信号完整性。
MPO-8/12连接器有两种主要变体:有针(pinned)和无针(non-pinned)。在点对点布线中,两端通常使用无针连接器。在结构化布线中,trunk线缆两端使用有针连接器,而jumper线缆和设备界面使用无针连接器。这种配对确保连接器正确对齐并防止损坏。EDGE8系统的配线板设计支援此标准配对,简化现场安装和维护。
APC(AngledPolishConnector)与UPC(Ultra-flatPolishConnector)的区分至关重要。NDR和XDR光学元件使用MPO-8/12APC连接器,其8度角抛光降低反射并改善信号性能。APC连接器使用绿色塑料外壳标识,不兼容于旧款HDR系统使用的aqua色UPC连接器。在系统升级或混合部署时,必须确保连接器类型一致以避免连接失败或光学性能下降。
Y型分离线缆(Y-Harness)引入特殊极性考量。这些线缆将一个8光纤MPO-8/12连接器分离为两个4光纤MPO-8/12连接器,每个承载200G信号。分离线缆保持Type-B极性,确保主MPO连接器的光纤1-4映射到第一个分支的200G连接,光纤5-8映射到第二个分支。36英寸的分支长度提供足够弹性以路由到相邻埠或设备。
LCDuplex连接使用标准UPC抛光并遵循简单的Tx-Rx交换极性。TwinLC-DuplexOSFP收发器包含两个独立的LCduplex界面,每个提供400G连接。在结构化布线场景中,EDGE8Ultra-Low-Loss模块将LCduplex转换为MPO-8/12界面,支援与骨干trunk系统的整合。这些模块支援universal极性,适应不同的布线需求而无需现场重新端接。
12.总结
NVIDIANVL72GB200和GB300系统代表GPU丛集技术的最新发展,为AI和HPC工作负载提供前所未有的运算密度和网络频宽。成功部署这些系统需要仔细规划光纤连接策略,从收发器选择到布线拓扑的每个层面都影响整体性能和可扩展性。
Corning的EDGE8解决方案透过CORE-Trunk多光纤整合线缆和结构化布线架构,显著简化大规模部署的复杂度。在16SU丛集中,使用CORE-Trunk可将LevelA和LevelB的55296条跳线减少为3456条CORE-Trunk,在LevelC使用结构化布线可进一步优化管理。这种简化不仅降低安装时间和成本,还改善长期维护性和故障排除效率。
可扩展单元架构提供从1152GPU到18432GPU的灵活扩展路径,每个规模级别都有明确的组件和布线需求。Rail优化设计确保故障域隔离和流量分散,而三层交换器层次结构(Leaf-Spine-Core)提供非阻塞通讯和高可用性。GB300系统的双平面和四平面拓扑进一步扩展能力,支援下一代工作负载的频宽需求。
与Corning工程团队在设计阶段的密切合作对于优化布线策略至为重要。每个数据中心都有独特的空间限制、冷却需求和扩展计划,需要客制化的解决方案以平衡性能、成本和操作效率。透过正确的规划和实施,NVL72系统可提供行业领先的AI训练和推理性能,推动下一波技术创新。
参考文献
[1]CorningOpticalCommunications,"NVIDIANVL72GB200/GB300Systems:InfiniBandandEthernetConnectivitySolutions,"WhitePaperLAN-3481-AEN,Feb.2026.
来源:逍遥设计自动化
投稿与新闻线索:邮箱:tuijiancn88#163.com(请将#改成@)
特别声明:企业推荐网转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。