01.Nvidia的光网络发展历程
人工智能基础设施的发展已经到达一个关键时刻,传统的电气互连正在成为系统性能与功耗效率的瓶颈。Nvidia以图形处理器和人工智能加速器闻名,最近对Lumentum和Coherent各投资20亿美元,这些投资不仅仅是单纯的供应协议。这些合作关系显示Nvidia认识到硅基光电子技术和光线路交换将会是未来扩展人工智能基础设施不可或缺的技术。
要理解这些投资的意义,需要先检视Nvidia在光学技术方面的发展轨迹。当Nvidia在2020年初以69亿美元收购MellanoxTechnologies时,获得了一家在以太网和InfiniBand网络光收发器领域拥有深厚专业知识的公司。Mellanox本身在Nvidia收购之前七年,就已经收购了光学技术供应商Kotura和IPtronics,展现对光学元件重要性的远见。然而,在2017年Mellanox拒绝Marvell的收购提议后,与维权投资者StarboardValue发生争执,导致公司的光收发器业务大幅缩减。Mellanox随后转向从外部供应商采购激光、光电子芯片和其他元件,这些供应商包括Lumentum和后来成为Coherent的公司,借此建立LinkX线缆和收发器业务。
这些光学元件的重要性不容小觑。在现代人工智能系统中,线缆和收发器可能占网络总成本的一半,以及超过一半的功耗。这使得LinkX产品线对Nvidia整体人工智能基础设施策略具有核心价值。随着人工智能集群规模持续扩大且变得更加复杂,与光互连相关的经济和技术挑战日益严峻,促使公司需要垂直整合并与元件供应商建立紧密合作关系。
02.对Lumentum和Coherent的策略投资
Nvidia确保光学元件供应链的方式与典型的企业投资明显不同。公司对Lumentum和Coherent各投资20亿美元,但这些并非简单的股权购买。虽然确切的财务结构尚未在SEC文件中完全揭露,这些投资可能涉及可转换债券、未来股票发行或其他股权工具,让Nvidia获得策略影响力而不会引发反垄断疑虑。除了这些股权投资,Nvidia还与两家公司签订了数十亿美元的采购协议,确保未来先进激光元件和光网络产品的产能与获取权。
以这种方式安排交易的策略理由,在检视这些公司的市场地位时变得清晰。Lumentum的市值在过去一年增长超过十倍,达到501亿美元,尽管过去十二个月的营收仅有21.1亿美元,净利润为2.516亿美元。Coherent的营收为63亿美元,净利润为3.31亿美元,市值攀升至485亿美元,成长近四倍。完全收购任一家公司都将耗费巨资,且可能引发全球反垄断机构的监管审查。此外,收购其中一家公司而让另一家保持独立,可能会疏远重视市场多元供应商的电信和服务供应商客户。
Lumentum和Coherent都深度参与Nvidia在Quantum-XInfiniBand和Spectrum-X以太网交换机上进行的CPO工作,这些交换机在前一年三月份公开发表。Lumentum为两个交换机家族的CPO模组供应激光,但Nvidia的前瞻性需求预测显示单一供应商将不足以应付。这些协议的非独家性质证实Nvidia积极希望供应商之间存在竞争,这与公司推动MicronTechnology重新进入HBM堆叠内存业务时采用的策略相同。通过打破Samsung和SKHynix对HBM供应的双头垄断,Nvidia获得了更好的定价和供应多样性,Micron为2023年11月发表的HopperUltraH200加速器提供所有HBM产能。
03.CPO与未来整合挑战
CPO代表光学元件与运算及网络硅芯片整合方式的根本转变。传统方法将光收发器放置在交换机或服务器机箱外部,需要在系统边缘进行电气到光学的转换。CPO则是将光学元件直接整合到交换机ASIC封装上,消除芯片对芯片通信的电气到光学的转换步骤,大幅降低功耗和延迟。
虽然Nvidia已成功在Quantum-XInfiniBand和Spectrum-X以太网交换机中实施CPO,逻辑上的下一步是将这项技术延伸到GPU运算引擎和NVSwitchfabric。即使Nvidia计划在机架中引入中板以消除NVL72机架配置中的铜缆,带宽需求仍将持续增加,而芯片边缘可用的实体空间保持受限。Nvidia用于最高性能产品的多芯片封装架构实际上加剧了这个挑战,因为运算和缓存面积与封装周长的比例变得更不利。
业界充分理解延迟在GPU上整合CPO的经济和技术原因。现有的电气解决方案虽然耗电且带宽日益受限,但代表着具有成熟供应链和可预测成本的成熟技术。将CPO转换到GPU互连需要解决关于热管理、封装复杂性和制造良率的重大技术挑战。然而,随着每一代GPU的带宽需求呈指数级增长,转向CPO不仅有益,而且必要。
04.光线路交换作为高功耗效率替代方案
除了用于主动交换的CPO,Lumentum和Coherent都提供光线路交换技术,可能从根本上改变Nvidia构建大规模人工智能集群的方式。光线路交换提供了与传统包交换以太网或InfiniBand网络完全不同的互连架构方法。光线路交换不需要将光信号转换为电气、透过交换机ASIC处理,然后再转换回光信号,而是使用镜面或液晶在光纤连接之间直接路由光信号,无需任何电气转换。
Lumentum的R300光线路交换机采用微机电系统镜面技术,这与Google在PalomarMEMS元件中使用的基本方法相同,用于从第四版到第七版TPU集群的Apollo光线路交换骨干。R300提供300×300端口,可透过实体重新定位镜面来重新配置连接,将光束重新导向不同的光纤对之间。虽然这个重新配置过程需要数十毫秒,对于动态包交换来说太慢,但对于大型人工智能集群的骨干层级运作良好,因为网络拓扑变更并不频繁。
图1:Lumentum的R300光线路交换机,具有300×300端口,采用MEMS镜面技术实现直接光路由,无需电气转换。Google的实施展示了这种方法的实际可行性。该公司构建了一个3D环面网络,将9216个IronwoodTPUv7p运算引擎连接到共享内存域中。通过重新配置光线路交换机,Google可以动态地将这个大规模集群分割成更小的区段,有效地销售不同规模的人工智能超级电脑来执行不同规模的工作负载。关键见解在于,对于网络的最顶层骨干层,拓扑变更足够罕见,数十毫秒的重新配置时间变得可以接受。
光线路交换的功耗和延迟优势相当可观。Lumentum声称在100000个XPU集群中部署R300可以将整体网络功耗降低65%,相较于传统电气交换。这种降低来自于消除在每个传统交换机中发生的光到电到光转换,无论这些转换发生在外部收发器还是CPO模组中。此外,一旦建立光路径,通过光线路交换机的延迟比电气以太网交换低五到十倍,因为信号直接透过光路径传播,无需缓冲、处理或协议开销。
Coherent提供基于液晶技术而非MEMS镜面的替代实施方案。该公司最近开始出货其数据中心光波交叉连接交换机,目前有七个客户正在试用。DLX提供多种配置,包括64×64端口、320×320端口和512×512端口,为不同的集群规模和架构提供弹性。
图2:Coherent的DLX光线路交换机,采用液晶技术,提供最高512×512端口的配置,用于大规模数据中心部署。Lumentum和Coherent交换机的不同实体技术反映出不同的工程权衡。MEMS镜面提供极低的光损耗和高可靠性,但需要精确的机械定位。液晶交换机避免了移动部件,在振动敏感环境中可能具有优势,但在交换速度、光损耗和波长选择性方面可能具有不同的性能特性。
05.重新思考人工智能集群的网络拓扑
大规模光线路交换机的可用性为未来Nvidia人工智能系统开启了根本不同的网络拓扑可能性。目前的NVSwitchfabric采用全连接胖树拓扑,每个GPU都可以通过专用交换路径与其他所有GPU通信。这种方法为任意通信模式最大化带宽并最小化延迟,但在交换机复杂性、功耗和线缆基础设施方面付出巨大代价。
通过骨干层级的光线路交换,Nvidia可以转向替代拓扑,例如环面或蜻蜓网络。这些拓扑减少所需的直接连接数量,同时仍为人工智能工作负载中的常见通信模式提供高分段带宽。环面网络类似于Google用于TPU集群的网络,将运算节点排列在多维网格中,每个节点仅连接到邻近节点。骨干层级的光线路交换机将处理跨越多個环面区段的长距离通信,根据需要重新配置以针对当前工作负载通信模式进行优化。
蜻蜓拓扑提供另一个引人注目的选择,将节点组织成群组,群组内部具有全对全连接性,群组之间透过光骨干具有结构化连接。这种方法可以大幅降低总交换机基数要求,同时保持本地和全域通信模式的良好性能。
Nvidia的路线图提供了这些架构变化可能发生时间的线索。公司计划的RubinUltra世代将引入带有铜中板的新Kyber机架,代表朝向完全光学背板的中间步骤。业界观察家推测这个世代可能是Nvidia引入带有光线路交换骨干的环面或蜻蜓拓扑的时机,从目前的全连接胖树架构转变。
06.多元采购策略与长期愿景
Nvidia决定同时投资Lumentum和Coherent,而非选择单一合作伙伴,反映出公司在其他领域成功采用的多元采购策略。通过与基于MEMS和基于液晶的光线路交换供应商保持关系,Nvidia获得几个优势。首先,供应商之间的竞争有助于降低成本并加速创新。其次,拥有替代来源可降低供应链风险,这对于Nvidia大规模的人工智能基础设施部署特别重要。第三,不同的光线路交换技术可能对网络的不同部分或不同的集群配置最优,为Nvidia提供系统设计的弹性。
Lumentum和Coherent公告之间的区别提供了关于Nvidia意图的额外线索。Lumentum的协议特别专注于先进激光元件,而Coherent的协议则更广泛地提及激光和光网络产品。这表明Coherent可能提供超越光线路交换和激光源的更广泛光学技术,可能包括其他光电子芯片或光学子系统。
展望未来,CPO和光线路交换的汇聚可能使人工智能系统几乎完全在光域中运作。运算芯片将整合CPO模组用于芯片对芯片通信,本地交换可以使用光学技术进行机柜层级连接,大规模光线路交换将处理集群层级拓扑。电气交换将被限制在绝对需要动态路由且距离足够短以使铜线保持可行的区域。
实现这一愿景的挑战不应被低估。将CPO与高功耗GPU整合需要解决复杂的热管理问题,因为光学元件有严格的温度要求,而GPU产生大量热量。当在单一封装上结合多种技术时,制造流程必须达到极高的良率。光接口的标准,特别是CPO,仍在发展中,多个产业联盟正在努力建立可互操作的方法。
尽管如此,推动光学解决方案的基本驱动力无法阻挡。随着模型规模和训练数据集的成长,人工智能工作负载需要指数级增长的带宽。功耗效率已成为第一级限制,数据中心运营商日益受到可用电力而非实体空间或资本预算的限制。延迟直接影响训练效率和推理输出量,使每一纳秒的通信开销都很重要。
Nvidia对Lumentum和Coherent各20亿美元的投资代表认识到光子技术不是未来的可能性,而是当前的必要性。通过确保供应协议、资助研发并维持多个技术路径,Nvidia正在定位自身以引领从电气到光学人工智能基础设施的转变。问题不在于这种转变是否会发生,而在于技术能多快成熟以及能以何种规模经济地部署。凭借Nvidia的资源和市场地位推动发展,广泛采用光学人工智能系统的时间表可能比许多人预期的更短。
参考文献
[1]T.P.Morgan,"Nvidiaseesthelightonsiliconphotonicsandmaybeopticalswitching,"TheNextPlatform,Mar.2,2026.[Online].Available:https://www.nextplatform.com/connect/2026/03/02/nvidia-sees-the-light-on-silicon-photonics-and-maybe-optical-switching/409309
投稿与新闻线索:邮箱:tuijiancn88#163.com(请将#改成@)
特别声明:企业推荐网转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。