选择语言

简体中文 English

中兴通讯：加速智能计算生态繁荣

发布时间：2024-06-24 作者：摘编自《通信产业网》作者：崔亮亮

大模型的出现催生了对大算力的需求，端到端开放解耦智算方案是产业良性发展的关键。中兴通讯一直致力于成为端到端开放解耦智算方案提供商，加速AI技术的创新、研发、应用的商业化进程，努力与产业伙伴共同实现共赢的商业生态。近日，《通信产业报》全媒体采访中兴通讯副总裁陈新宇，探讨了中兴通讯如何应对挑战，助力大模型发展与应用的实践和经验。

《通信产业报》：中兴通讯在端到端开放解耦智算方案方面，做了哪些工作，取得了怎样的成果。

陈新宇：中兴通讯秉承开放解耦的理念，发挥中兴通讯软件、硬件和工程能力优势，携手合作伙伴构建多渠道供应链，通过硬件、软件和能力平台三个方面的创新，为用户提供端到端的开放解耦智算方案。

在硬件方面，中兴通讯采用基座灵活、适配多种CPU平台和GPU模组，实现了换芯、换卡、不换座。支持3种CPU平台，并与主流GPU完成了适配，为用户提供了多样化算力，用户可以根据成本、政策、供货、功耗等不同的需求和情况来灵活选择算力。

在软件方面，通过异构资源管理、训推作业调度和异构集合通信，实现了软硬解耦。向下屏蔽了不同厂家芯片的差异，向上适配了主流AI框架，为模型运行提供了高性能、高可靠性、易迁移的环境。通过软硬协同深度优化，最大化资源效率。此外，不断研究算力卸载和在网计算技术，以提升算力利用率。

在平台方面，适配主流框架如PyTorch、TensorFlow，实现向后端平台的自动编译和优化，并提供从数据处理、模型开发、训练、优化、评估到部署等端到端的工程工具集，支持全生命周期的保障和管理。同时，提供迁移工具，支持应用全域无感迁移，降低用户迁移成本。

“百花齐放春满园”，中兴通讯认为开放的技术生态才能构建共赢的商业生态，端到端开放解耦智算方案是产业良性发展的关键。通过软硬解耦、训推解耦、模型解耦，推动各类能力组件化和共享赋能，加速AI技术的创新、研发、应用的商业化进程，构建开放的技术生态；通过产业内的芯片厂商、硬件厂商、模型开发商、应用开发商等形成优势互补，共同做大做强，共同实现智能计算生态的蓬勃发展。

《通信产业报》：大模型的出现催生了对大算力的需求，这给基础设施带来挑战，中兴通讯采取了哪些举措来应对？

陈新宇：当前，集群规模无法满足万亿以上超大模型训练，突破国内大规模集群组网上限势在必行。从GPT3千亿模型到GPT4万亿模型，每年模型参数增长10倍，加上训练token的增长，训练总算力需要提升几十倍。但算力芯片的性能每代只能增长2~4倍，单个集群需要更多的GPU卡数才能满足万亿大模型训练需求。

为了构筑更大规模的算力集群，中兴通讯从机内和机间两个维度，不断研究优化GPU卡间高速互联技术方案，满足万亿以上大模型训练需求。在机内，提出了开放的OLink互联协议，突破机内TP8限制，支持16张到128张GPU超级计算节点的大TP算力；在机间，通过集大容量交换芯片能力的不断演进，提供基于标准RoVEv2协议的交换机框盒互联方案，满足从千卡到万卡超大规模算力的灵活组网需求。

《通信产业报》：随着智算基建的完成和大模型训练的成熟，行业应用落地成为最大的挑战，中兴通讯有什么解决方案？如何推动AI应用商业闭环？

陈新宇：企业在AI技术应用方面存在短板，同时私有数据的保护限制了模型训练的有效性。此外，不同行业、不同企业的个性化需求也增加了应用落地的复杂性。

为解决这些问题，中兴通讯提出引入AiCube训推一体机的解决方案。在软硬件方面，提供多品类高算力硬件底座和易用的训推平台，内置主流大模型和AI应用。在服务方面，提供定制化服务和代训服务。

为推动行业应用落地，中兴通讯与行业伙伴紧密合作，推出多种一体化解决方案。例如，针对工业质检领域，提供机器视觉一体机；针对医疗行业，推出智能导诊的智能问答一体机。用户不需要专业技术积累，不需要大规模投资，不需要专业机房，不需要专业团队，就可以构建自己的专属大模型，用AI提升生产力。智、算、用一体化部署可大幅降低AI推广门槛，加速行业市场规模化商用。

在AI应用商业化进程中，训推并举才能加速商业闭环。中国拥有众多且丰富的应用场景和私域数据，这是在全球AI竞争中最大的优势之一。在应用方面，中兴通讯利用自研或开源基础大模型，结合丰富的行业数据和知识工程，构建领域大模型，打造行业样板，实现从“0”到“1”的突破。基于领域大模型，结合不同场景，实现从“1”到“N”的应用拓展。

在市场方面，C端市场需求相对一致化，因此采用云端部署更为合适。而在B端市场，由于还在探索和孵化应用场景，同时受限于私域数据安全等考量，客户更希望采用私域部署形式。因此，中兴通讯提倡以终为始，打造中心云到专属云的全链路服务。中心云支持基于通用数据的大模型预训练和云端推理，而专属云则提供基于私域数据的本地精调和推理。这样的服务模式由运营商进行建设维护，企业进行租用，能更好地满足客户需求，加速大模型在不同场景的落地和应用。

《通信产业报》：大模型引领行业变革，中兴通讯在大模型及应用方面有哪些实践？

陈新宇：在大模型及应用方面，中兴通讯采用“1+N+X”策略，基础大模型采用自研与生态合作并举，并在此基础上通过领域知识增量预训练“N”个领域大模型，包括研发大模型、工业大模型、通信大模型、政务大模型等，进而衍生出“X”种应用，构筑产业数智化转型新引擎。

其中，在研发领域，研发代码大模型辅助公司开发人员编码效率提升30%；在生产制造领域，在公司南京滨江基地，通过工业大模型将订单排产时间缩短88%、工艺文件生成效率提升50%；在通信领域，在乌镇世界互联网大会上，基于通信大模型的重保助手可一键生成重点事件保障方案，相比于传统保障流程，保障效率可提升80%。

业界首个基于大模型的“智御”反诈系统应用，针对百万级诈骗短信样本进行增量训练，可结合上下文语义关联信息，精准识别经过各种变异干扰的垃圾短信，拦截准确率提升至99%；在水利领域，基于水利大模型实现多轮对话、意图识别、知识问答等，助力水利知识平台建设，河道知识问答准确率达90%；在城市生命线安全工程领域，率先用大模型实现对燃气、积水、道路隐患等多种风险的视觉智能识别，自动生成应急处置预案，保障人民群众的生命财产安全。

本期相关文章

中兴通讯助力中国电信升级城域服务，打造敏捷云网

微服务化的vBRAS架构演进关键技术探讨

服务感知网络技术和演进探讨

大容量核心路由器液冷关键技术

IPv6+技术演进探讨