数据中心网络是数据中心业务承载的基础设施,用来按需将计算系统和存储系统连接起来,以确保高水平的性能。随着数据中心逐渐引入SDN和NFV技术,实现了虚拟网络(overlay)与物理网络(underlay)解耦,具备虚拟网络自动化开通、业务快速发放等诸多优势。但随着数据中心网络规模不断扩大,网络越来越复杂,网络运维越来越困难。传统运维方案采用周期轮询、周期探测以及异常事件触发告警等方式,无法从复杂的异常及告警信息中快速精准定位故障及实现实时的网络流量可视化,导致数据中心网络存在故障难以发现、难以定位、难以解决等三难问题。
为解决上述问题,行业提出带内遥测技术。该技术是一种基于真实业务流的随流测量技术,可以提供真实业务流的逐跳SLA(丢包、时延、抖动等)测量能力,可快速感知网络性能相关故障,并进行精准定位、排障,是SDN时代及云计算时代的重要运维手段。
转发芯片、DPU等可编程芯片的兴起和发展,推进了带内遥测技术的落地实现。带内遥测技术的出现,使网络故障问题自动定位和主动运维成为可能。
技术架构
在数据中心网络中,带内遥测技术部署架构包括分析平台、控制器以及使能带内遥测能力的转发设备,如图1所示。其中,分析平台能够收集和分析遥测数据,以全路径形式呈现分析结果;控制器支持部署带内遥测功能,实现数据面的监测,配置检测信息确定哪些流量需要监测以及关注的遥测数据,并向网络转发设备下发相应的配置;带内遥测能力转发设备执行用户数据报文粒度的网络带内遥测数据的测量。其中,根据转发设备对报文的操作不同,转发设备节点可分为头节点、转发节点和尾节点三类。
检测原理
时延、丢包是数据中心网络的重要性能指标,带内遥测技术基于染色机制不仅支持丢包、时延的统计功能,而且支持业务流的路径可视化能力。此外,带内遥测技术实现直接在数据面收集并上报业务流包数、字节数、时间戳、沿路节点信息等网络状态,具有实时性及细粒度等网络特性。
带内遥测系统实现原理如图2所示,各节点具体检测流程如下:
- 头节点:交换机1作为带内遥测的头节点,收到主机1发送的数据包后,基于控制器下发的配置信息,若匹配到配置中的某条业务检测流,则在交换机1上添加流检测标识及带内遥测头,其中带内遥测头中含有时延、丢包等标识位,代表所需的遥测数据信息,可以根据业务的需求对相应的标志位做标识,即周期性对检测业务流的所有数据报文(测量丢包)或某一数据报文(测量时延)的带内遥测头丢包或时延标识位染色。同时头节点也需根据带内遥测头向分析平台上报遥测数据。
- 中间节点:交换机2作为带内遥测的中间节点,只需识别流标识并依据带内遥测头中的信息周期性向分析平台上报遥测数据。
- 尾节点:交换机3作为带内遥测的尾节点,不仅需要识别流标识及依据带内遥测头中的信息周期性向分析平台上报遥测数据,更为重要的一点是需将带内遥测头剥离,恢复原始数据报文,最后交付给目的地主机2。
- 分析平台:作为遥测信息的展示平台,需统计、分析并展示沿路节点上报的被检测业务流的遥测数据,包括时延、丢包等信息。此外,还可根据业务流经过设备的先后顺序绘制全路径信息,同时将业务流在相应设备上的丢包及时延等信息也在路径中绘制,实现业务流全路径可视化。
技术优劣分析
面向数据中心网络场景,带内遥测技术采用明信片模式,支持每节点上报遥测数据,避免头部过长带来有效载荷占比过低的情况。此外,带内遥测技术能够实时、精准地反映网络时延、丢包等性能指标,主动感知业务故障,真正做到“一键下发,全网使能”,真实还原业务流的转发路径。但频繁的遥测数据上报将会给数据中心网络带来带宽的损耗。
产业发展
带内遥测技术作为网络流量、性能、故障监控等网络运维的重要手段,极大地丰富了数据采集的多样性及网络运维的可靠性,实现实时的全网状态可视和流量可视,降低了人工干预,提高了网络自动运维能力,已逐渐成为数据中心网络运维的关注焦点。同时,业界普遍认为,数据平面的可编程性对实现带内遥测至关重要,这将对网络设备的开放性和可编程能力提出了更高的要求。目前,主流的新一代数据面芯片基本具备了带内遥测能力。
带内遥测能够面向数据中心网络不同类型的业务场景,提供较为新颖的网络管理及运维方案,实现业务流量的实时性、精准性、细粒度和多样性可视化网络运维及监控。此外,随着人工智能的快速发展,如何将带内遥测技术与人工智能有机结合将给数据中心网络运维带来新机遇,同时,如何利用带内遥测技术构建端网协同的拥塞控制算法,也将成为未来网络研究的热点问题。