在当今数智化浪潮汹涌澎湃的时代背景下,AI技术以前所未有的力量驱动各行各业的深刻变革,全球科技巨头纷纷在智算领域展开激烈角逐,智算已成为推动新质生产力发展的重要引擎。对于中国智算产业而言,坚持自主创新、不断提升产业核心技术能力,是实现繁荣发展的必由之路。江苏电信携手中兴通讯,共同打造国产化千卡智算中心,为各行业数智化转型奠定坚实的算力根基。这一合作不仅展示了双方在技术上的深厚积累,更为国内同类项目提供了宝贵的技术选型、架构设计与运营管理等方面的实践经验。
机遇与挑战
2022年11月ChatGPT闪亮登场,标志着人工智能迈入了一个崭新的发展阶段。国际企业纷纷发力,推动大模型在多行业实现深度应用,从而重塑传统行业的运作模式。受此影响,我国AI产业需求呈现出爆发式增长,智能算力成为经济增长的新引擎。然而,在高端算力应用领域,国产化算力占比不足30%,提升空间巨大。
端到端全国产化智算建设方案
中兴通讯联合江苏电信,凭借各自优势共同打造了千卡级别的国产智算中心。中兴通讯凭借其深厚的技术积累,打造了端到端全栈智算方案;而江苏电信则依托其卓越的网络、运维和运营经验,为这一项目提供了坚实的支撑。双方紧密合作,旨在为多行业提供高效可靠的国产化算力服务,从而进一步推动南京数字经济的发展水平。江苏电信智算资源池总体方案如图1所示。
AI基础设施,筑牢算力根基
AI基础设施强大的算力支撑、高效的数据存储与管理,以及稳定低延迟的网络传输,多层次筑牢算力根基,为AI技术落地与应用拓展奠定坚实基础。
TECS资源管理平台,引领智算中枢
中兴通讯TECS平台深度集成计算、网络和存储等多种资源,为用户提供高可靠、高算力的服务。基于TECS平台,用户可轻松管理多数据中心、多集群的算力资源。运维系统实现了自动化和智能化,降低了运维成本和难度,提升了效率和可靠性,保障智算中心稳定运行。
AIS训推平台,赋能大模型应用拓展
AIS训推平台涵盖大模型全流程功能,全面支持主流开源大模型。凭借一站式服务平台优势,API一键部署,简化了大模型的使用流程;通过直观的交互界面,用户可根据实际需求灵活组织工作流,降低了大模型的使用门槛,推动了大模型在各行业的广泛应用。
创新亮点
在大规模资源池建设时,业界一直聚焦于如何高效利用资源、提升训练效率与稳定性以及达成快速交付。中兴通讯凭借一系列创新技术,成功在这几大关键领域取得突破。
大模型3D并行弹性训练机制,提升资源利用率
在大规模集群环境中,多用户多任务同时运行时资源分配困难,中兴通讯软件平台基于优先级和资源配额的弹性训练机制,通过框架与调度平台紧密协同,实现大模型任务资源的自动弹性伸缩、迁移和碎片整理,在保障用户体验的同时,提升了资源利用效率。借助框架和算法的深度协同,实现了数据和模型的自动拆分,保障了弹性伸缩训练过程中算法的收敛性,确保模型训练的准确性和稳定性。
作业性能优化,提升集群训练效率
大模型训练性能受到算子效率、通信速度、存储能力等多重因素影响,针对国产GPU性能特点,中兴通讯采取了一系列创新措施,包括提供高性能的融合算子加速库、优化显存资源以及提升通信性能等。结合专家优化经验和大模型自动并行寻优策略,中兴通讯在千卡集群和千亿参数模型上的性能,已可比肩业界领先的A800,线性加速比超过95%,这一显著成功极大提升了大模型训练的性能和效率,为国产芯片在大模型训练领域的应用注入了强劲动力。
断点续训,保证集群训练稳定性
大模型千卡、万卡集群的稳定性一直是行业亟待解决的难题。以Meta采用英伟达H100集群为例,其等效千卡集群每2天就会发生一次故障。为提升大规模集群的稳定性,中兴通讯创新性地采用异步Checkpoint机制,利用CPU内存和远端分布式存储分级架构,实现Checkpoint的秒级保存和读取。通过大量系统级稳定性优化以及框架与平台的自动协同,中兴通讯成功实现了故障的快速定位与恢复,千卡集群千亿参数模型达到恢复时间少于6分钟且连续260小时无故障的卓越稳定性表现,为大规模模型训练的稳定性提供了可靠保障。
自动化部署工具AIC,保证项目快速交付
智算中心交付面临着硬件集成难、软件部署复杂、网络配置复杂的挑战,在江苏电信项目交付中,中兴通讯通过自动化部署工具AIC,实现软硬集自动开通,大大提升了自动化交付覆盖率、交付效率以及交付质量。团队在一周内能够完成上百台GPU服务器、千张GPU卡、近百台交换机、上千根光纤和光模块的部署,实现业务的极速上线,迅速响应并满足了市场需求。
江苏电信国产化千卡池的成功部署,不仅标志着国产智算中心建设迈出了坚实步伐,更树立了行业发展的典范。展望未来,随着技术的持续迭代升级与应用场景的不断深化拓展,江苏电信国产化千卡智算中心将继续发挥其在行业中的引领和示范作用,深度激发各行各业数字化转型的潜能,加速构建数字经济新生态格局,推动社会迈向智能化、高效化、可持续发展的全新阶段。