面向大模型,中兴通讯全栈智算解决方案赋能千行百业

发布时间:2024-03-22 作者:中兴通讯 王卫斌,陆光辉

        人工智能发展至今,已经经历了三次高潮、两次低谷。2022年11月,OpenAI公司发布的ChatGPT及其采用Transformer算法和预训练大模型的生成式AI技术,使得第三次人工智能技术发展达到了前所未有的新高度,并由此迎来AI大模型技术拐点和炒作高峰。

        生成式AI技术,具有生成新内容、模仿人类创造力和创新性的能力,使其在众多领域都能发挥重要作用,从而推动了人工智能领域的繁荣和进步。规模创造奇迹,更大的模型带来更高的智能。随着AI技术不断发展,千行百业将可以利用AI更好地实现运营效率的提升和商业价值的创造,从“数字化”迈向“数智化”。

        面对生成式AI技术发展的机遇和挑战,中兴通讯坚持“数智经济筑路者”定位,做极致的AI公司,成为大模型应用的企业范例,同时致力于助力千行百业构建端到端的智算基础设施和智能化的企业数字化转型解决方案。在原有通用算力解决方案基础上,中兴通讯推出星云智算解决方案——Nebula Intelligent Computing Solution,以开放、高效、智能和安全理念为指引,面向训练和推理两类场景,打造智能基础设施、AI平台、大模型及应用三个层次的开放生态全栈智算解决方案,助力运营商智算中心建设,赋能千行百业数智化生产,实现数智化转型(见图1)。

智算基础设施,高效安全

 

        中兴通讯智算基础设施层,包括IDC、AI计算、融合存储、无损网络和资源管理平台,以支撑多样化多层次的智算基础设施建设为目标,从大模型训练智算中心到训推混合智算中心再到边缘训推一体机,不同层次智算基础设施满足不同场景下的性能、成本和服务的差异化需求。这种多层次的智算基础设施设计,使得解决方案在适应性上更为灵活,为用户提供了更加个性化的选择。

        高效为本,大模型单次训练成本高,因此需要高效的智算基础设施。中兴通讯围绕硬件、资源管理和产品方案三个要素,构建高效智算基础设施。

        在硬件方面,一方面通过选择高算力、大显存和高速互联的处理器以及高性能并发多元存储来提高系统并行率,从而提升集群有效算力,另一方面自主研发DPU智能网卡,提供超大带宽和超低时延的无损网络,使得整体解决方案具有更高的可靠性和算效性。

        在资源管理平台方面,通过资源管理平台向下链接多种异构硬件,满足AI大模型训练和推理的资源高效管理需求。中兴通讯AI资源管理平台产品TECS,为AI训练/推理任务提供JOB调度和智算集群管理,主要包括计算增强(如vGPU技术等)、存储增强(如支持高性能文件存储等)、网络增强(如支持集合通信技术等)和集群管理调度等相关能力。AI资源管理平台产品TECS,是在原有自研通算资源管理产品基础上针对AI大模型训练推理相关需求进行的产品增强,与原有产品功能可分可合,可根据应用场景需求选择融合部署,实现通算和智算统一管理和编排,也可以选择独立部署提供智算资源管理和编排。

        在产品方案层面,为了精准解决行业二次训练及实时推理业务场景需求,中兴通讯推出了一站式、开箱即用的训推一体机,如图2所示。一体机集成了计算、存储、网络设备和AI平台软件,支持主流AI框架,为用户降低私域模型的训练和推理成本,降低技术门槛。这意味着用户无需复杂的部署和配置过程,可以快速投入使用,实现了训推资源的灵活分配。

        安全为基,人工智能的三个基本要素(算力、算法和数据)中,算力是推动人工智能系统整体发展并快速应用的核心要素和主要驱动力,因此提供安全可靠的算力是关键。在智能算力发展上,中兴通讯致力于构建国内外多渠道供应链,面向AI大模型训练和推理场景,一方面可提供基于国际主流GPU厂家高性能AI服务器和IB交换机的全套成熟方案;另一方面也联合国内头部GPU厂家进行了大量自研工作,可提供高性能端到端多样化智算方案,包括基于这些头部GPU厂家芯片的高性能AI服务器、盒式和框式RoCE交换机、支持高性能和多元存储(文件、对象、块和大数据等)的分布式存储服务器等。

        此外,百千亿级参数规模的大模型训练,由于训练数据大,预训练耗时长,为了保障训练的稳定可靠,避免硬件故障引起训练中断的巨大损失,中兴通讯资源管理平台TECS提供安全可靠的可视化管理平台实现自动监控,并提供断点续训服务,减少训练中断时间,大幅降低训练进程中断的损失。

 

 

AI平台,开放解耦

 

        中兴通讯AI平台层以开放、解耦为核心,拥有完备的AI平台产品,AI平台向上提供统一的编程环境及工具链,最大化降低模型开发及迁移成本,助力生态建设。

        为帮助开发者和使用者更好地以更具可扩展性的方式开发、训练、评估、实施和更新AI大模型,中兴通讯提供面向大模型的组件化AI平台(AIE,AI Enabler)。作为智算一体机或AI应用的内嵌平台,AIE涵盖数据采集、数据标注、模型训练、模型精调、知识库、编译优化、推理部署等全栈工作流,支持PyTorch等主流AI框架,为客户提供端到端的智算中心解决方案,为AI应用提供模型能力及运行引擎。

 

大模型及应用,从“通用”到“专用”

 

        针对大模型赋能企业数字化转型,中兴通讯将其发展总结为“1+N+X”的策略,从“通用”到“专用”。

 

一系列基座大模型

        中兴通讯以工程化能力为优势,自主研发星云系列基座大模型,包括NLP大模型和多模态大模型,通过收集大量训练数据,利用无监督或自监督学习方法,从而使其在不同任务和领域中具备优异的理解和表达能力。

 

N个领域大模型

        领域大模型是在基座大模型基础上,通过加入领域Know-How增量预训练等方式,提高专业性能力。在研发领域方面,中兴通讯自2022年开始使用大模型技术全流程助力研发提效,辅助开发人员进行需求分析、产品设计、编程、测试、版本发布以及产品文档编写。目前,中兴通讯研发的编码领域大模型在HumanEval评估的编码类模型能力方面处于第一梯队,编码语言种类多样性和中文编码能力均达到业内领先水平。在电信领域方面,中兴通讯在电信领域拥有大量、高质量的网络运维和业务运营数据,将大量高质量的领域数据以及Know-How知识积累注入到电信领域大模型中,在通信领域的知识超过其他大模型。中兴通讯电信领域大模型支持通信领域的多模态数据,可较好解决覆盖、容量、性能报表、看网讲网等复杂问题。中兴通讯电信领域大模型支持更强的意图引擎,与自智网络高度结合,通过高效的工作流串接,可帮助运营商提升网络运营效率。

 

X个场景应用

        中兴通讯基于领域大模型开发了各种细分应用,如基于计算机视觉(computer vision)大模型,针对水、电、气、热、交通等城市重要基础设施的城市安全风险综合检测预警场景,推出城市生命线解决方案;基于编码大模型,开发出覆盖研发全流程的一站式AI开发助手;基于网络大模型,开发出系列运维工具,如故障运维机器人等,为不同场景提供支持;基于大语言模型开发出短信反诈业务应用。

 

丰富应用,助力客户数智转型

 

        为助力运营商和合作伙伴构建端到端的智算基础设施和企业数智化转型解决方案,实现数智化转型,中兴通讯推出开放解耦的星云智算方案Nebula Intelligent Computing Solution,提供AI全栈产品,并在智算中心、研发提效、通信领域、反诈治理和城市治理等多个领域得到应用。在通信领域,中兴通讯2023年发布了业界首个基于大模型的“智御”短信反诈治理系统;在行业领域,与业界数百个伙伴展开合作及签署战略合作协议,并在机器视觉、工业生产等领域落地多个项目。AI大模型作为数智化转型的核心技术,直接关系到千行百业在新时代的转型和商业成功,中兴通讯已经做好了充分准备,将与合作伙伴一起拥抱这一重大机遇,让AI普惠千行百业。