中兴通讯:匠心筑基,开放共赢

发布时间:2024-07-23 作者:中兴通讯总裁 徐子阳

编者按:6月26日,2024年上海世界移动通信大会启幕,中兴通讯总裁徐子阳应邀出席同日举办的“人工智能先行”主题演讲,分享中兴通讯在人工智能浪潮下的数智实践与创新。

 

        过去的一年多,大模型和生成式AI为数智浪潮推波助澜,技术高速迭代,产品层出不穷,新场景和新业态蓄势待发。虽然生成式AI依然处于发展初期,但大家已经有普遍共识,即全球已经进入AI驱动的产业革命,AI将对生产生活的方方面面产生深远的影响和变革。人工智能将深刻重塑全球经济格局。业界咨询机构预测,至2030年,AI将显著推动中国GDP增长26%,北美GDP增长14.5%,预计为全球贡献约10.7万亿美元的经济增长,占据全球影响的近七成。这一变革将为零售、金融服务和医疗保健等行业带来前所未有的商业机遇。 

        除了幻觉、安全和伦理等问题外,生成式AI发展还面临算力、能耗、数据集、标准化及商业应用等挑战,因此,需要从多个方面实现进阶发展,中兴通讯提出算网进阶、训推并举、开放解耦的核心主张。首先是突破技术瓶颈,加强架构、算法、算网和软硬件协同优化等研究,提升AI训练和推理效率;其次,以RAG、Agents等多种解决方案确保可靠性、安全性和可解释性,以实现大模型的广泛应用和更高价值,构建数据飞轮,兼顾能力提升和商业闭环;最后,以“开放解耦”加速标准化,构建繁荣的产业和商业生态。

 

算网进阶,打造高效基座

 

        首先是算网进阶,打造高效基座。在智算领域,高速网络连接不仅不可或缺,而且至关重要,无论是芯片内裸Die互联,还是芯片之间、服务器之间、DC之间互联,网络连接技术的持续创新和突破,将极大地提升智算的性能与效率。

        Die2Die即芯片内的裸Die间高速互联网络,结合自研的并口/串口全系列IP、成熟的2.5D/3D先进封装,支持异构解构和集成,一定程度上突破了摩尔定律失效和工艺方面的制约,实现异构计算和网络处理在内的多种芯片架构,提供更高的性能表现和更优的性价比。

        Chip2Chip即跨芯片之间的互联网络,通过芯片间可分布式高速交换互联,及PCIe5/6、56G/112G/224G SerDes全系列高速接口结合的解决方案,更好地解决目前Mesh互联灵活性差和带宽利用率低的问题,并进一步突破算力芯片TP8/16互联的规模瓶颈,更好地适应复杂的大规模智算应用场景的需求,为客户提供差异化的竞争优势。中兴通讯也在积极参与中国移动全向智感高速互联架构(OISA)的推进。另外,面向下一代102.4T网络交换机光电异构集成的需求,LPO(linear-drive pluggable optics,线性驱动可插拔光模块)光电融合互联和CPO(co-packaged optics,光电共封装),均可极大地提升互联密度,并降低能耗,同时,布局光互联I/O,其在带宽密度、功率效率、延迟方面将实现革命性的提升。

        Server2Server即智算集群的互联场景,中兴通讯正全力配合中国移动,完善全调度以太网(GSE)产业生态,打造无阻塞、高带宽及超低时延的新型智算中心网络。今年2月,中兴通讯积极参与了中国移动组织的GSE原型机互联互通测试,后续将基于千卡和万卡场景驱动,共智合力,加速突破,积极助力链长壮大产业发展。在自身能力上,中兴通讯将持续推动关键芯片的转发能力从12.8T向51.2T能力升格,通过提供单层/盒盒/框盒的多样化方案,更好地服务全域智算训练场景需要。

        DC2DC属广域连接场景,400G光传输产业在中国运营商的引领下蓬勃发展,为“光电贯东西、一网通九州”的算间智联打下了坚实基础。中兴通讯正在全力支持国内运营商全球规模最大400G OTN商用网络部署,验证全场景Real 400G的大容量连接能力,联合国内运营商完成了基于S+C+L波段的单波T比特实时系统传输实验,并创造了传输容量的世界记录。后续,中兴通讯也将继续发挥连接优势,以网强算,打造算力网络高效全光底座。

 

训推并举,赋能实体经济

 

        对于大模型在各行业的落地应用,除了常规的幻觉、安全和伦理等问题,还需要解决专业性、准确性、鲁棒性和可追溯性等一系列刚性场景下的挑战,同时在基础大模型基础上构建领域模型时,专业数据治理、增量训练等工程经验和工具集等也至关重要。以电信自智网络场景为例,大小模型结合、RAG(retrieval augmented generation)、多智能体(Agents)协同、数字孪生、多模态CoT(chain-of-thought)等技术创新,都已经有所成效。

        在AI应用商业化的征途上,训推并举是驱动实体经济腾飞的关键。中国凭借丰富的应用场景和私域数据资源,可以为全球AI产业做出巨大贡献。为了充分发挥这一优势,我们需要注重准确性、专业性和推理效率的提升,同时加强领域数据治理和数字孪生技术的应用。训推并举,以训练创造能力,以推理和应用验证价值,构建数据飞轮,双循环将进一步促进AI能力迭代和商业变现,从而锻造核心优势。

        具体操作上,我们主张锚定高价值行业和天使客户。天使客户通常是行业中最具影响力的企业,数字化基础好,同时积极拥抱技术变革,并可以引领整个行业数智化进程。通过与天使客户的合作,数智技术与“Know-how”结合,优势互补,并快速验证迭代技术方案,树立标杆;基于自研或开源基础大模型,利用丰富的行业数据和知识工程构建领域大模型,打造行业样板,实现从0到1突破;基于领域大模型,结合不同场景实现从1到N的应用拓展。

 

开放解耦,构建繁荣生态

 

        最后是开放解耦,构建繁荣生态。AI技术处于高速迭代期,但当下依然普遍生态封闭,同时缺乏行业标准,并带来一系列问题,比如重复开发和资源浪费、技术孤立和风险集中、选择受限和供应垄断等,制约了AI的快速良性发展。 

        中兴通讯倡导构建全栈开放的智算方案。在基础设施层面,软硬协同,最大化资源效率。硬件兼容适配国内外主流GPU/CPU,支持OISA、RoCE/GSE等开放标准的高速无损互联,为客户提供多样化的选择;软件支持异构资源管理、训推作业调度和异构集合通信等,在强化对多厂家GPU支持的同时,为模型运行提供高性能、高可靠的运行环境;通过算力卸载及在网计算等技术,大幅缩减数据读写与传输时间,提升算力利用率。在能力平台层面,适配PyTorch、TensorFlow等主流框架,自动实现向后端平台编译和优化,并提供数据处理、模型开发/训练/优化/评估/部署等端到端的工程工具集,在支持全生命周期保障和管理的同时,还应支持算力原生、混池训练、高效推理、数据飞轮构建等。在算力网络层面,强化算网协同,支持应用全域无感迁移。

        “一花独放不是春,百花齐放春满园”,全栈开放的智算方案将有利于开放的技术生态和共赢的商业生态的构建,是智算良性发展的关键。我们通过软硬解耦、训推解耦、模型解耦,推动各类能力组件化和共享赋能,加速AI技术的创新、研发、应用和商业化进程,构建开放的技术生态;通过产业内的芯片厂商、ICT硬件厂商、应用开发者、集成商、运营商的生态定位和优势互补,共同做大做强,实现共赢的商业生态。

 

筑基启智,共创美好未来

 

        中兴通讯始终以客户价值为核心,提供从算力、网络、能力、智力到应用的全栈全场景智算解决方案,并已形成高速互联、在网计算、算力原生、无感迁移、数据处理和算法优化等多个关键技术积累。一方面,中兴通讯聚焦算力网络的高效、绿色、安全,以硬实力筑基,以及能力应用的灵活、敏捷、智慧,以软实力启智;另一方面,以数字星云的组件式交易的全开放研发架构,可分可合,灵活实现与客户能力的优势互补和强强协作,赋能千行百业的数智化转型需求。 

        在基础设施领域,中兴通讯提供算、存、网、数据中心等全系列产品及方案,全面满足从中心到边缘的多样化智算中心建设需求。在算力维度,芯片侧兼容适配国内外多厂家GPU/CPU,自研定海芯片支持RDMA标卡、智能网卡、DPU卡等多种形态,提供高性能、多样化的算力内核和硬件加速;整机侧,基于扣卡模组/PCIe插卡AI服务器、训推一体机等系列产品,灵活适配差异化场景;数据中心侧,依托风液融合、弹性配电等节能技术,打造PUE低至1.1、机柜功率密度最高达60kW的新型智算中心。在网络维度,中兴通讯与产业伙伴一起建立开放的GPU互联标准Olink(Openlink),也将全面融入中国移动OISA架构,在兼容现有RDMA协议实现机内机间统一互联技术的同时,重点推动机内通信从Mesh互联转向交换互联,支持单机更大规模TP计算,降低连接复杂度,提升集群规模和效能;自研的RoCE网卡和盒式、框式RDMA交换机,支持构建百卡-万卡规模的智算集;Real 400G助力打造算力网络高效全光底座。

        在能力领域,算力统一云管平台ZTE TECS支持异构资源管理、训推作业调度和异构集合通信;ZTE AIS训推平台,则支持拥有面向大模型的数据处理和模型开发平台,提供大模型工程化全栈工具和引擎。在具体应用场景中,如无感迁移可以实现5天可用,15天好用;高效推理实现千亿模型单卡部署;数据自动标注,时间节约80%。 

        在智力方面,中兴星云大模型集中发力算法创新、数据工程和高效算力平台。星云基础大模型包括2.5B/16B/40B/100B多种规模,可以覆盖从手机、边缘到中心云各种部署场景。在训练阶段采用多阶段预训练、中文词表改进、高质量语料精炼、合成数据训练等多项技术创新,在算力需求降低50%的同时保证了模型训练效果。在推理效率方面,在保证模型准确率不受影响的情况下,以权重INT4量化和KVCache FP8量化算法,节省推理资源3倍。星云通信大模型已完成千亿级(9×20B)MoE(混合专家)大模型的训练,并且支持多模态输入及十二万的有效上下文窗口,对通信业务场景提供通信专家级的见解和帮助。星云研发大模型通过多模型协作技术,可以支持需求、设计、编程、测试等不同阶段全流程30多种场景,多种编程语言如Python、Java、C/C++、Go、Java script,代码生成能力可以达到GPT4水平,并且在单元测试准确率、覆盖率方面大幅超越GPT4-Turbo,可以根据需求直接生成测试用例(测试驱动开发)。

        在应用方面,中兴通讯积极探索大模型在行业中的实际应用,先后在研发提效、通信网络运维、城市治理、工业园区等多个方向推出大模型应用。其中,星云编程大模型在HumanEval的评分位列业界编码模型第一梯队,目前日活用户已超过1.3万,日请求数达到11万+,日吞吐量达3.3亿tokens,编码提效30%,整体研发提效10%。同时基于端到端智算平台为客户提供全流程大模型工具链,降低客户进入门槛和开发、使用成本,助力大模型在行业的普惠应用。

 

        中兴通讯始终秉持多样互补、开放利他的原则,坚定不移地支持并推动产业繁荣发展;同时强化内外双循环,持续引领创新发展。未来,中兴通讯将持续加大投入,致力于在多个领域实现技术引领,进一步推动智算产业的壮大与发展,为经济的繁荣贡献力量。