从2022年11月ChatGPT推出后,大模型的发展就进入加速阶段,大模型网络参数每3年增长1000倍,集群规模每2年扩大至原来的4倍。2023年,千卡GPU训练池开始部署,2024年,万卡集群完成部署,xAI的十万卡集群也已启动。从万卡集群迈向十万卡集群的过程中,业界对网络产生了新的需求。英伟达作为AI基础设施的标杆企业,从横向扩展(Scale-out)和纵向扩展(Scale-up)两个维度对更大规模的集群进行拓展。在Scale-out方面,英伟达主要推行IB(InfiniBand)技术,其次是RoCE(RDMA over converged ethernet);在Scale-up上,则采用其私有的NVLink技术,而其他多数厂家选择了开放解耦的发展路径,其中互联网企业在这方面的探索更为领先。
DeepSeek和Grok 3代表了大模型发展的两个侧重方向。
2025年1月,DeepSeek火爆出圈。它凭借低成本训练取得了显著成果,仅使用2000张H800卡,经过15天的训练,就达到了OpenAI、LLaMA等模型采用万卡规模训练所获得的效果。这体现了以低成本投入、依靠算法优化来降低成本的发展逻辑。
2025年2月,xAI发布了Grok 3。该模型使用了10万张H100卡,在数学、科学、编程三大评测中均排名第一,彰显了通过堆积大算力,不断提升AI性能和拓展新能力的发展逻辑。
我们认为,上述两种发展路径都将继续推进,“扩展定律”(Scaling Law)依然有效。
Scale-out:RoCE部分替代IB,GSE/UEC胜过IB指日可待
对于Scale-out而言,其核心诉求为实现大规模互联,尽可能提升带宽利用率,并减少网络阻塞。当前,借助大容量的盒式交换机与框式交换机,叠加多轨道优化技术,能够搭建起千卡、万卡乃至十万卡规模的网络。同时,头部互联网企业基于标准的RoCE,通过端网协同的算法优化, 以及更有效的拥塞控制,进而提高带宽利用率。腾讯、阿里、谷歌、AWS等企业都采用了类似思路,在具体实施过程中存在细节差异。互联网基于RoCE的优化方案虽具有优势,但存在两个缺点:其一,该方案是建立在端到端自研基础上的私有实现,仅能供自身使用,难以广泛部署;其二,其主要创新点集中在软件层面,硬件部分依旧采用当前标准的商用器件,存在诸多制约因素。
鉴于此,业内成立了联盟,共同构建下一代智算网络的新标准。其基本逻辑包含三点:一,基于以太网,物理层(phy层)和介质访问控制层(mac层)均采用以太网标准;二,从物理层到传输层都要进行优化;三,实现端到端支持,即从网卡到网络设备都需满足要求。下一代智算网络标准以GSE(国内)和UEC(海外)为代表。预计2025—2026年,会有支持GSE、UEC的产品及解决方案推出。
从目前GSE/UEC的进展来看,标准在超大规模组网、缩短作业完成时间(JCT时间)、优化负载分担算法以及端到端协同等方面,均取得了良好的技术创新与显著进展,超越IB指日可待。
Scale-up:内存语义和消息语义并行发展
对于Scale-up而言,随着张量并行(TP)扩展,从8卡扩展到16卡,再到英伟达NVL72的72卡,高带宽域(HBD)可扩展支持至NVL576,多GPU的HBD域互联显得极为重要。其核心需求在于具备高带宽、低时延以及在网计算能力,以便更好地支持TP并行。英伟达作为行业引领者,其最新的NVLink5.0已支持224G serdes。
Scale-up的标准需求主要源于两大驱动力:其一,Scale-up的多卡扩展趋势已然形成;其二,NVLink属于私有技术。因此,2024年UAL联盟迅速成立,国内也相继出现ETH-X、OISA、Alink等组织。与Scale-out一开始就在技术逻辑上统一采用以太网不同,Scale-up始终存在两条技术路线:一条基于总线型,在逻辑上需在PCIe基础上进行扩展,以支持内存load/store操作,并实现内存一致性,代表性厂商是AMD的Infinity;另一条基于网络型,在逻辑上要对RoCE进行裁剪与扩展,代表性厂商是英特尔。
最新进展是,UAL的第一个版本已决定采用以太网作为物理层和链路层,放弃了PCIe,“Infinity over Eth”取代了最初的“Infinity over PCIe”,当然仍会支持内存语义。之所以选择这一方案,主要是因为以太网能够提供比PCIe更宽的带宽,且以太网发展更为迅猛。与此同时,国内ODCC也立项了ETH-X项目,单机柜可容纳64卡。可将其视为中国版本的NVL72,但该项目采用以太网进行机内互联,计算板(compute tray)和交换板(switch tray)能够解耦,可兼容多家GPU和交换机,从而为客户提供更多选择。
从当前情况来看,Scale-up方面的进展相较于Scale-out稍显滞后。不过,在整体需求定义、架构选择以及芯片路径等方面均取得了快速进展。期待OISA/UAL能够推出如同英伟达交换机一样高品质的方案,为非英伟达GPU的多卡应用奠定网络基础。
拉远、CPO等新技术在大规模智算网络中加速演进,重要性日益凸显
在打造超大规模智算集群时,拉远技术可能成为关键考量因素。这主要源于机房功耗问题,以NVL72设备为例,单台功耗达120kW,万卡集群至少需20MW,而100万卡集群则高达2GW,这远远超出了普通园区的供电能力。然而,大模型计算所采用的众多算法对时延极为敏感,因此针对拉远技术的优化势在必行。目前,研究重点聚焦于300km以内的网络方案,这要求在网卡侧对RDMA协议进行拉远算法的拥塞控制(CC)升级,同时交换机要与网卡实现拉远协同,并具备缓存正在传输(in flight)流量的能力。若传输距离超过100km,就需引入OTN设备,使用新型空心光纤则有助于降低时延。
供电限制引发了对拉远技术的需求,不过换个思路,也可通过降低功耗来提升单个集群的规模上限。降低功耗可从优化光模块、采用液冷技术等几方面着手。
交换芯片从640G升级到51.2T,容量提升80倍,芯片功耗仅提升8倍,而光模块功耗却飙升了26倍,降低网络功耗,光模块是关键。针对光模块优化,主要有LPO、LRO、CPO几种新技术。LPO(linear-drive pluggable optics, 线性驱动可插拔光模块)技术通过去除光模块中的数字信号处理器(DSP),大约能降低1/3的功耗,但存在设备对接难题。目前部分互联网企业已开始尝试应用。LRO(linear receive optics,线性接收光模块)技术则是一种折衷方案,仅去除发送方向的DSP,对兼容性要求较低,相应地,功耗降低幅度也较小。CPO(co-packaged optics,光电共封装)技术较为激进,虽能大幅降低功耗,却给部署和运维带来极大挑战。因此,我们认为可插拔式光模块(LPO)是当前优选方案,CPO可作为最后的考量选项。
当单芯片功耗达到1300W,热流密度高达140W/cm²时,就需引入液冷系统。在各类液冷方案中,冷板式液冷相较于浸没式液冷,因部署和维护更为便捷,成为推荐方案。
总结:AI网络未来可期
中兴通讯认为,和传统HPC超算相比,AI大模型市场规模庞大,全行业均有需求,更多供应商参与、采用解耦的解决方案将是大势所趋。为此,中兴通讯开展了诸多工作:
在Scale-out方面,中兴通讯深度参与GSE核心技术研发。同时,中兴通讯积极投身UEC规范研讨,确保下一代产品能够全面支持GSE和UEC协议。
在Scale-up方面,中兴通讯加入OISA、UAL以及ODCC ETH-X等组织,深度参与超节点的设计工作。
在智算拉远领域,中兴通讯致力于打造端到端开放解耦方案,通过自研网卡、交换机、路由器以及OTN,实现端到端的优化。
在降低功耗方面,中兴通讯积极探索液冷解决方案以及CPO/LPO解决方案,力求在设备层和芯片层实现优化。
中兴通讯坚信,AI大模型给国内网络从业者带来了发展机遇,我们将坚持走开放解耦的道路,与各方协同合作、共同推进,为构建更优质的AI智算网络而不懈努力。