随着大数据、高速计算、AI和ChatGPT等业务的飞速发展,数据中心规模急剧增长。据IDC统计,全球数据总量2021年为84ZB(1ZB=1万亿GB),预测2026年达到153ZB。服务提供商以及各大企业亟需将IT架构升级,将现有数据中心内部交换系统从10GE、40GE提速到100GE、400GE互联,服务器接入从GE、10GE演进到25GE、100GE,以满足数据中心业务高吞吐的发展趋势。
数据中心Fabric互联面临带宽挑战
更快的以太网速度、虚拟数据中心构建、物联网(IoT)以及混合/多云扩展,在合力加速数据中心网络资源的发展。云提供商数据中心对带宽需求的激增是采用400G交换矩阵的关键因素。
云数据中心在满足日益增长的工作负载和计算实例方面占据了主导地位,超大规模云提供商正在向50/100G网卡(NIC)迁移,以提高数据中心的整体效率,降低每千兆的功耗。此外,随着5G的蓬勃发展和基于视频的数据传输的快速增长,云数据中心势必需要升级容量才能交付这些快速增长的数据和带宽密集型应用。
在AI场景,随着GPU能力升级,RNIC(RDMA NIC)带宽也需要同步升级,GPU升级1~2代,接口带宽提升1.5~2倍。当前需要部署100G RNIC接入,全部发挥GPU性能,需要选择更高带宽的400G RNIC。最近版本的SmartNIC满足2个200G端口或1个400G端口。100GE Fabric网络需要升级至400GE Fabric,而且AI多种业务同时对网络提出了高吞吐、低延迟需求,400G数据网络是加快数据中心采用RoCE(RDMA over Converged Ethernet)技术的关键。
随着大型数据中心向更快速、更可扩展的基础设施过渡,大容量连接对于满足不断扩展的用户数量、设备和应用数量至关重要。
400GE互联技术趋势
随着100G Serdes、交换芯片、高速光模块技术成熟,400GE互联产业环境已经成熟。交换芯片Serdes已由56G升级至112G,机架设备线卡交换芯片转发带宽达到7.2Tbps,为机架设备提供高密度400GE端口芯片方案。盒式设备转发芯片带宽8Tbps,为100GE接入和400GE上行提供芯片方案。
400G QSFP-DD和QSFP-112光侧和电侧都已标准化,且400GE满足向前同时兼容100GE和40GE。可选择QSFP-DD LR4 10km光模块进行DC间或POD间互联。400GE端口功耗在14W左右,对比100GE端口带宽增长3倍,每吉比特功耗下降13%。随着100GE Serdes成本进一步降低,QSFP112在功耗和成本相对于QSFP-DD有优势,4通道的QSFP112将是DC内Spine-Leaf 400GE互联的主要部署选择。
400GE在DC应用包括POD、DCI及Fabric互联场景,由于224G serdes技术瓶颈,400GE会长期部署。
中兴通讯数据中心400GE Fabric组网方案
中兴通讯400GE Fabric组网方案为云数据中心、AI提供多种灵活组网方案,满足数据中心流量的持续增长,以及对大容量400G数据中心网络解决方案的高带宽需求。400GE Fabric解决方案包括云数据中心解决方案和单层机架组网方案(见图1),前者适用于数据中心通用解决方案,后者适用于AI算力的高速、低时延和无损的高要求。
中兴通讯400GE Fabric云数据中心组网方案为云数据中心内部和云数据中心之间提供全400GE互联方案。服务器网卡100GE接入,1U盒式接入设备提供48口100GE接入端口和8口400GE上行端口,多形态机架设备单槽提供36口400GE与接入设备互联,盒式设备和机架式设备为云计算场景提供更大规模的Spine-Leaf Fabric组网。接入设备还可选择48口25GE接入8口100GE上行TOR,满足25GE、100GE云计算不同业务类型的接入场景,机架设备同时提供36口100GE板卡,满足不同带宽业务混合组网,高带宽业务选择400GE Fabric,低带宽业务选择100GE Fabric。
中兴通讯400GE Fabric单层机架组网方案为AI业务提供更高带宽、更低时延以及无损承载。单层组网两台机架设备可提供1152个400GE端口,满足400G RNIC接入,同时为AI业务提供带宽无收敛的400GE Fabric网络,此外,400GE Fabric网络结合RoCEv2组网确保实现低延迟、智能拥塞管理和QoS灵活性。机架设备基于信元交换、VoQ和端到端调度架构确保机架设备跨板转发无拥塞、无抖动,单层机架组网对比多层Spine-Leaf组网架构具备以下优势:
- 确保AI业务可靠运行
多层组网设备间依赖HASH选路存在冲突,个别路径冲突+并行计算的同步效应,会使得预训练时间成倍增加;机架设备单层组网对比多层组网能够确保AI业务可靠运行。
- 确保高链路利用率
多层组网设备间的HASH选路可能引起链路带宽利用率不均衡;单层机架设备组网板卡间交换属于设备内部交换,线卡和交换网板卡间的交换能绝对负载均衡,能够确保高链路利用率。
- 提供无感知的故障恢复
多层组网设备间链路故障切换通常在毫秒级别,端到端切换时延依赖路由协议切换时延到百毫秒级别;单层机架设备交换网切换可为业务提供无感知的纳秒级故障恢复。
- 网络极简运维,业务灵敏感知
多层设备组网设备间互联端口需要无损网络进行整网配置,无损业务调整复杂,随着网络规模扩大严重影响网络灵敏度;单层组网设备间的端口均为机架设备内部端口,多台设备组网复杂的无损参数调优变得极简,利于网络运维并提升网络对业务感知保持高灵敏度。
中兴通讯400GE Fabric组网方案将助力数据中心网络创新,构筑“5G+云+AI”时代新基建。