核心网通过引入AI能力,构建“AI+”核心网,推动运营商从传统的流量经营模式向差异化的价值体验经营模式转变,并构建更加高效和安全的5G/5G-A网络。相较于传统5G核心网,AI大模型训练与分析推理需要海量数据支撑,“AI+”核心网需要处理的数据量数百倍增长,这些数据分散独立,涵盖了用户级的业务签约信息、移动位置轨迹、业务体验历史等数据,网络级的网元拓扑、状态数据、性能统计、告警记录、日志等运维信息,以及无线侧的小区负荷和资源数据等信息。如何高效地采集、处理、存储和管理这些数据孤岛,成为“AI+”核心网发展的一个关键挑战。本文将重点探讨通过引入统一数据面来解决这一挑战,支撑“AI+”核心网的快速发展与演进。
统一数据面是指在“AI+”核心网中构建一个网智融合、海量多模的数据存储与管理系统(Data for AI)。该系统以数据为中心,提供统一的数据采集、处理、存储、分析服务,以及AI大模型相关的训练、推理、模型管理和数据安全防护功能,旨在实现数据与模型的共享。统一数据面从5G核心网的UDR(unified data repository)/ UDSF(unstructured data storage function)以及网络智能化的存储系统ADRF(analytics data repository function)融合演变而来,为“AI+”核心网的数据处理提供了全新的解决方案。
统一数据面架构
统一数据面的架构主要包括数据采集层、数据处理层、数据存储层、数据分析层、数据管理层和数据总线层(如图1所示)。
统一数据面关键技术
统一数据面涵盖对海量数据的采集、预处理、存储、分析、开放等全生命周期管理服务以及数据的安全合规治理等能力,对应的关键技术包括:多模数据库引擎技术、分布式计算和存储技术、安全和隐私保护技术等。
数据面要存储管理的数据在数据规模、读写频率、访问性能和持久化等方面存在明显差异,需采用多种数据库引擎和文件等多模存储形式,包括实时交易型数据库引擎(如RDBMS关系型数据库和NoSQL数据库引擎)、实时分析性数据库引擎(如时序/列式数据库引擎)、向量数据库引擎以及分布式文件或对象存储等,以最大化提升存储性能和容量规模。
“AI+”核心网对数据面的容量、并发性能和响应时延要求较高,需采用分布式的数据存储和计算技术。其中分布式数据存储技术包括分布式文件存储和对象存储,如HDFS、MinIO、Ceph Object storage等,以及分布式NoSQL数据库和时序数据库,如MongoDB、Redis Cluster、Clickhouse和中兴通讯自研的CUDR云化统一数据层等。分布式数据计算技术则包括分布式计算框架(如MapReduce、Apache Spark等)以及分布式消息队列和流处理平台(如Apache Kafka、RabbitMQ、FLink等)。
为确保数据安全,防止数据泄露,需对敏感数据进行加密存储和脱敏处理,支持ACL(access control list)防止未经授权的数据访问和模型调用,支持纵向和横向数据联邦学习。同时,还应逐步引入区块链等分布式可信安全管理技术,全面提升数据和模型的安全性。
新技术,新起点
统一数据面技术不仅提高了数据采集、管理和存储的效率和可靠性,还为AI模型提供了丰富的数据源,有助于提高模型的准确性和泛化能力。同时,统一数据面还应采取有效的安全和隐私保护措施,确保数据的安全和合规性。随着5G/5G-A和AI技术的不断发展,统一数据面架构和技术也需不断更新和完善,以适应网络智能化发展的新需求。通过持续的技术创新和优化,统一数据面将成为“AI+”核心网发展的重要支撑,推动运营商实现更加高效、安全和差异化的价值体验运营。