随着行业数字化转型的加速,通信领域运维需求日益复杂,智能运维成为数字化时代保持竞争力的关键因素之一。然而,随着业务的快速发展和技术的不断更新,传统运维方式已难以满足通信设备运维的需求。大模型技术的出现为智能运维领域带来了突破,它能够提供更人性化的人机交互模式,同时能够处理海量格式化数据,提供高精度的分析和预测,为智能运维提供强大的技术赋能。
大模型在智能运维中的应用
大模型技术在通信领域智能运维中得到了广泛的应用拓展,主要包括:
- 运维知识问答:大模型对于通信知识有存储、记忆、理解和运用能力,灵活结合上下文的理解,能够准确检索和提取相关信息,生成问题答案,反馈给提问运维人员;同时大模型能够不断更新和修正自己的知识库,从而保持与最新知识的同步。
- 故障异常检测:利用大模型智能算法和模型,系统对采集到的数据进行处理和分析,可发现与正常状态不符的异常数据或行为;通常涉及特征提取、数据建模和分类、异常判断标准制定等步骤。
- 根因定位:在异常检测的基础上,进一步对异常数据进行深入分析,推断出导致异常的原因和位置,从而确定故障的具体类型和位置;这需要运用各种诊断技术和方法,如故障树分析、专家系统等。
- 故障预测与预防:大模型可以对海量的历史运维数据进行学习,从中发现故障发生的规律和趋势,建立故障发生模型。基于此模型,通过对实时数据的监控和分析,大模型亦可以预测潜在的故障风险,提前发出预警,使运维人员有足够的时间采取预防措施,降低故障率。
相较于传统AIOps,大模型给予智能运维更进一步的能力加持,如交互更简单、知识覆盖更全面、能够实现故障自我学习、模型架构更灵活等,使用门槛更低,并且实现了运维能力的不断泛化。
中兴通讯核心网运维大模型体系架构及关键技术
中兴通讯核心网运维大模型基于中兴通讯自研训练的电信领域星云大模型,使用高质量的语料对基座模型进行精调,生成面向核心网及网络云的运维大模型(见图1)。运维大模型应用有三大类能力:
- 智能交互(CoPilot-I):包括专业知识问答、网络健康度查询、关键指标信息查询等功能;
- 智能分析(CoPilot-A):包括故障分析辅助、网络优化辅助、巡检报告排查等功能;
- 智能生成(CoPilot-G):包括巡检报告生成、操作方案生成、网络报表生成等功能。
为满足以上大模型运维能力,在中兴通讯核心网及网络云各运维大模型产品中,分别应用了当前热门的关键技术,包括RAG(retrieval-augmented generation,检索增强生成)、多智能体协同等。
- RAG(检索增强生成)
要完成更复杂和知识密集型的任务,需要构建一种精度更高、更可靠的系统,并且缓解大模型“幻觉”问题。RAG是一种大模型的关键技术,它通过从数据源中检索信息来辅助大语言模型生成答案。RAG技术可以极大地提升内容的准确性和相关性,有效缓解幻觉问题,提高知识更新的速度,并增强内容生成的可追溯性。RAG已成为当前解决大模型获取外部新知识问题最受欢迎的系统架构。
- 多智能体协同架构
多智能体协同是指多个智能体在共享环境中通过相互通信和协作,实现协同行动以达成共同目标的过程。每个智能体都具备一定的自主性和智能性,能够根据环境信息进行感知、决策和执行。多智能体协同通过相互之间的交互与合作,使整个系统能够从各个智能体的优势和特长中受益,实现更高效、更智能的决策和行动。基于多智能体协同架构,我们可以创建知识专家、故障专家、值守专家、方案专家等独立智能体个体,通过相互协同,共同构建网络的智能运维体系架构。
大模型在智能运维中的挑战与未来发展
尽管大模型在智能运维领域具有广泛的应用前景和优势,但仍然存在一些挑战。例如,如何提高大模型的自适应能力、降低模型的复杂度、解决数据隐私和安全问题等。
未来,随着技术的不断进步和应用场景的不断拓展,大模型在智能运维领域的应用将会更加广泛和深入。例如,随着边缘计算的普及和发展,大模型将逐渐向边缘端迁移,实现更高效、实时的智能运维;同时,大模型将与机器学习、深度学习等技术结合得更加紧密,进一步提高智能运维的效率和精度,大模型将面临更多的数据挑战和机遇。因此,我们需要不断地探索和创新,结合具体场景和需求进行应用和实践。同时,也需要进一步加强相关技术的研究和开发,推动智能运维技术的进步和发展。