云化网络向智能化演进的驱动力
随着虚拟化、5G切片、服务化和IoT等技术的融入,电信网络向云化网络演进。建设云化网络,运营商在运营和运维方面面临前所未有的挑战。
首先是运维管理复杂度增加。随着5G网络的建设部署,网络将面临多制式(2G/3G、4G、5G)共存的环境,加大了管理协同和互操作难度;网络分层解耦架构使得故障定界定位更加困难;虚拟化云化网络的动态变化给资源统一调度和运营管理带来了挑战。
其次,人与人通信的单一模式逐渐演化为人与人、人与物、物与物的全场景通信模式,复杂的业务场景带来了对SLA的差异化需求,以及与之配套的网络管理的复杂性。
第三,依托5G网络能力和丰富的业务发展,业务体验也呈现出多元化、个性化发展态势,比如沉浸式体验、实时交互、情感和意图精准感知、所想及所得等,网络对于用户体验的支撑保障,将颠覆传统模式,迎来全新挑战。
最后,传统云计算已经无法满足新业务对带宽、时延等方面的需求,将运营商网络及算力向边缘推进已成为必须,MEC成为满足此类需求的不二选择。MEC会带来两个主要问题,一是具有海量的站点,且部分站点会比较偏远;二是部分边缘站点受到用电、空间、网络等方面的限制,对能够部署的资源规模有限制。针对海量边缘站点及可能受资源限制的边缘站点,如何提高运维效率,降低人力成本,是边缘站点运维的主要难题。
为应对这些挑战,5G电信网络引入自动化和智能化,从而降低运维管理复杂度,保障网络基础设施的快速构建和稳定性、可靠性,提升网元性能以及资源利用率,提升数据中心和基站节能效率,快速满足用户需求变更,提升用户体验。
自动化到智能化演进给云化网络带来的变革
基于规则的自动化向基于决策和判断的智能化演进将会给云化网络自身带来三方面的变革。
-网络自愈:故障解决将是网络的重要能力,在自动化向智能化演进过程中,网络从大量的网络数据中学习,自学习构建网络故障规则库和自动化规则框架,强化学习能力,对网络故障形成判断决策和策略,形成网络自愈能力,从而最大限度提升运维效率,保障网络的可靠性和稳定性。
-网络自优化:网络的优化体现在资源效率提升、性能优化和业务优化,智能化的引入将为网络自优化提供最佳解决方式。网络从资源状态、性能KPI数据、业务状态数据、日志数据等若干数据中学习,形成资源效率智能模型、性能优化模型、业务优化模型,针对资源、性能、业务三方面形成决策和策略,从而达到自主判断和自优化。
-网络自治:系统将网络运维模型、优化模型、运营模型等若干模型进一步整合成决策管理模型,对各个智能化模型进行全网统一决策判断和调度,构建全网大脑,达到网元和网络的自我管理能力,形成网络自治。
云化网络的自愈、自优化和自治将使得网络达到自主进化能力,从而形成自主进化网络。
核心网智能化解决方案
核心网根据智能化分级演进(见图1),构建自动化规划、安装部署测试、智能运维、自动化优化和智能运营的规、建、维、优、营智能化网络。预计核心网能够在3年内,实现中级智能化,基于L3基础进一步实现网元和网络级别的有条件自愈,对资源、业务通过QoS自优满足SLA。希望10年左右实现闭环自主进化,在L3和L4的基础上,实现零接触的自优化和自愈,从而迈向自治。
针对智能化演进目标,中兴通讯提出uSmart-CN智能化解决方案。该方案基于中兴通讯uSmartInsight AI平台,在边缘DC、中心DC以及集中智能管控中心灵活引入uSmartInsight AI组件,针对编排智能、切片智能、边缘智能和运维智能场景,构建分层闭环的智能化体系,支撑网络规划、部署、维护、优化和运营全流程的智能化(见图2)。
闭环自主进化
闭环控制用于保证网络实际行为符合预期,可用于网络变化、不断迭代情况下的动态优化。闭环控制从网元、子网、整系统角度都可以加以利用,不同层次的闭环控制满足网络不同范围的SLA需求。中兴通讯uSmart-CN智能化方案将能够实现网元级、管控级和网络级自主进化闭环。
按需智能编排
方案通过资源监控,掌握网络的实时运行状况及资源利用情况,并利用历史数据构造出能准确反映实际的资源利用模型,建立资源智能分配中心。当有新的业务请求发生,需要进行网络部署时,编排管理系统将业务指标等要求发送给资源智能分配中心,由资源智能分配中心根据AI模型,找到当前满足业务需求的最优资源。编排管理系统再依据最优资源指示,完成网络服务的部署。网络按需智能部署,既有效保证了业务QoS的满足,又使资源消耗实现最佳平衡。
全流程智能运维
uSmart-CN通过分层引入AI能力引擎,根据AI训练平台输出的决策依据,自动化执行管理策略,赋予网络智能感知、建模、开通、分析判断、预测等方面的能力,同时辅以系列自动化工具,支撑核心网端到端智能运维全流程。
-智能规划:uSmartNet-CN基于海量数据分析和AI预测,识别价值区域,将业务需求快速转化为网络需求,自动进行网络参数设计和网络预规划,提升网络规划效率。
-智能部署:结合自动化部署工具,自动完成网络各层次的安装部署、数据配置和检查,智能匹配测试场景及用例,自动完成业务功能、接口等测试,部署周期从几周缩短到几天。
-智能维护:通过对网络健康360°全面检测,实现网络KPI异常感知,预测故障和网络问题,变被动运维为主动运维。当有异常发生时,通过CHR(Call History Record)、告警、日志等关联分析,快速进行故障定界定位。
-智能优化:通过实时采集资源、负荷、流量等数据,对用户感知、业务质量以及网络状态进行预测和评估,动态调整网络资源、拓扑、路径和参数,消除网络潜在问题,确保网络高质量运行。
边缘智能
在端边云基础上叠加AI能力,可大量数据和复杂表象下探究出规律,实现边缘云的网络优化和运维。
-集中智能优化维护:多站点集中统一的故障自愈和故障规避。通过智能告警关联、日志关联、告警根因分析等技术,确定故障点及故障原因,对故障点进行自动化的故障自愈操作,如主机自动替换、虚机异地自动重生等手段。通过对性能统计、日志、告警等大数据的分析,预测可能发生的故障,并提前规避故障发生时对业务的影响。如预测主机或虚机将要故障,可提前将主机或虚机上的业务迁移到其他主机或虚机上。
-边缘优化:边缘计算节点通过统计和分析用户终端的协议能力、性能表现和用户业务特性,建立不同用户的特征模型库,并根据实时收集到的用户级别测量与用户特征库进行匹配,更为准确地预测业务变化趋势,以及用户行为对网络负荷的贡献,进而优化用户算法策略和参数配置。
智能切片
当前智能化切片仍处于起步阶段,面临着很多困难与挑战,主要包括:
-无线、传输、核心网资源调度:当前切片在端到端领域分别有不同的隔离技术,使得一个切片的故障、拥塞,不会影响另一个切片的工作。当然无论无线、传输网还是核心网,均可能受用户分布、密度、资源空间、频谱带宽等因素的影响,此时如何动态调整相应的资源、SLA保障、网元实例数量等显得尤其重要。
-切片SLA智能拆解:切片管理系统需要将行业用户需求转化为网络侧可识别的部署配置参数需求,包含QoS参数、容量参数、业务参数等系列细化配置参数,如何合理分解配置参数将直接影响切片能否满足行业用户。
-平台AI算法与切片的结合:目前标准里并没有定义AI与切片结合的具体算法,对于学习能力、推理流程等需要在理论分析的基础上进行测试验证,结合实际使用经验不断推进。
-标准制定:切片一定是一个端到端的技术范畴,其中涉及不会是单一厂商,各厂商间关于智能化的实际机制、原理、算法、部署等要求,需要横向拉通,需要在标准层面进行一定的统一。
针对5G切片场景,中兴通讯深入剖析行业客户的典型应用场景及需求,帮助运营商实现切片自动化管理、业务发放、一键式切片部署及切片SLA监控与保障。切片管理系统中引入人工智能,根据AI训练平台输出决策依据,自动化执行管理策略,实现切片灵活性和管理复杂度之间的完美平衡。
云化网络的演进增加了网络复杂性,网络的建设、维护、优化和运营都需要加强智能化能力。从基于规则的自动化向能够自主学习、自主判断和决策的智能化演进将极大提升网络的自优化、自愈和自治能力,提升网络运维效率和资源利用率,满足用户SLA的快速调整,提升用户体验。云化网络的智能化将是一个长期过程,自动化向智能化的演进突破传统网络运维,一定会给云化网络带来颠覆性变化。