下一代NFV硬件关键技术

发布时间:2017-08-21 作者:范延伟(中兴通讯)

  在标准组织、开源社区、运营商和设备商的共同推动下,电信行业掀起了NFV/SDN新技术浪潮。NFV的底层硬件采用通用的货架产品,即通用服务器、通用磁阵、通用交换机,其可用性已经得到证明。但当下的通用硬件源于IT,仍然不足以满足种类繁多的电信业务,不足以适配等级不一的电信机房环境,仍存在巨大的改进空间。本文探讨了下一代NFV硬件应具备的关键技术。

 

硬件架构变革:软件可定义基础设施

 

软件可定义服务器


  软件可定义基础设施(SDI,Software Defined Infrastructure)是未来数据中心的发展方向。Intel提出RSD(Rack Scale Design)架构,旨在实现计算、存储、网络资源池的全面解耦,以构建软件可定义服务器,其理念完全符合SDI思想,技术上也领先于当前的OCP和天蝎等整机柜规范,是构建电信云基础设施的最佳实践。


  Intel的RSD架构可对计算、内存、PCIe扩展和存储资源进行动态管理,将这些资源进行机柜级组合调度,并依托Redfish管理接口,大幅提升数据中心的资源利用率和灵活性。


  中兴通讯在RSD领域积极投入,已经在现有服务器产品上实现了基于Redfish接口的全套RSD2.0的管理接口规范,也在积极研发下一代资源池服务器,如图1所示。中兴通讯持续攻克技术高地,诸如内存资源池技术、400G接口技术、大容量交换技术、全光背板技术等,为RSD的快速商用铺平道路。

 


 

软件可定义存储


  CEPH是一种典型的分布式存储系统,也是真正意义上的软件可定义存储,代表着存储的发展方向。CEPH相比传统磁阵有以下显著优点:高扩展性,支持从TB到PB级的扩展;高可靠性,多数据副本,全分布架构;高性能,数据处理高度并行,线性化好。


  中兴通讯在CEPH开源社区的贡献处于业界前二。相比开源CEPH版本,中兴通讯的CEPH存储产品ZXCLOUD KS10000已经在政企和运营商客户的关键生产系统上成功商用,商用成熟度业界领先。KS10000 V2版本又在以下3个方面做了深度优化:一、支持基于3D Xpoint的NVDIMM技术,性能有数量级的提升同时免去cache保护的电池组;二、支持基于硬件的纠删码技术,硬盘利用率从传统三副本的33%提升到67%,存储成本几乎降了一半而性能不受损;三、支持CEPH虚拟化,在小型化场景可以在单台设备上部署CEPH,在大型分布式场景可以将富裕的CPU等资源通过虚机方式共享给其他业务。

 

性能提升:硬件加速技术

 

  大视频、5G、AR/VR、人工智能、车联网,新的业务模式层出不穷,用户对流量的需求永无止境,要求电信设备具备超高的性能、毫秒级时延、端到端的QoS保证。构建于通用x86处理器之上的NFV问题凸显,如计算资源消耗极大、数据转发能力变弱、I/O接口无法达到线速、时延大抖动大等。


  NFV的性能问题成为制约其规模商用的重要因素,NFV加速技术成为关键选项。


  目前NFV已经采用了一些加速技术,如DPDK、FDio、SRIOV等,但这些技术或多或少存在缺陷。中兴通讯对多种硬件加速技术深入研究并逐步应用到商用实践,推出了基于FPGA、GPU、Intel QuickAssist的硬件加速卡,同步预研基于自研芯片400G网络处理器的加速方案(见图2)。

 



  业务丰富、性能高是中兴通讯硬件加速的两大特点。方案支持各种应用场景,如OVS转发加速、EPC媒体面加速、SFC业务链的NSH报文头加速、DPI深度报文检测加速、音视频转码加速、IPSEC安全加速、TCAM查表加速、人脸识别加速等,平均性能提升了5倍~10倍,具备极高的商用价值。


  兼容与开放是中兴通讯硬件加速的基本设计原则,消除供应商锁定。方案遵循ETSI规范,兼容整个NFV体系,加速能力被MANO可见可管,既可以构成独立的加速资源池也可以与通用设备共存,既可以给中兴通讯自己的APP使用也可以开放给第三方APP使用,虚拟网元VNF可以在加速资源池和通用资源池之间自由弹缩。

 

绿色节能:液冷散热技术

 

  绿色节能是数据中心永恒的主题。1台服务器3年所消耗的电力成本会超过服务器的采购成本。从IT机房电力分配看,服务器等硬件设备约占电能总能耗的50%,制冷系统占40%,电源与照明系统占10%。


  降低服务器的功耗一直是芯片厂家和整机厂家的工作重点。CPU支持自动降频与休眠技术;电源选用“80 Plus”铂金、钛金等级,效率已达95%;风扇选用高效率的双段式对转风扇;温度传感器的海量部署、风速的智能控制……可以说针对单个服务器的节能优化措施已近极限。


  然而制冷系统还存在巨大的改进空间,当前普通机房的能源效率PUE值普遍在1.8~2.5,远远高于PUE的理想值1。中兴通讯研发出不同制式的高效制冷系统:基于微模块的散热系统、基于快插头的水冷散热系统和基于液体相变的浸没式液冷散热系统。


  浸没式液冷技术方兴未艾,中兴通讯联合业界领先供应商开发了氟化液相变的浸没式液冷设备,用于大功率服务器产品,经过测算PUE值已经小于1.03。实际上在PUE小于1.05后首要的问题是散热系统的机房的适应性。中兴通讯开发的浸没式液冷系统适用性广,充分考虑了当前电信机房的设计标准,如承重、供电、风道、布线、监控等条件,机房无需改造或极小的改造即可部署,同时与传统的风冷设备共存,互不影响。

 

电信级可靠性:主动安全技术
 
  借鉴汽车行业,汽车的安全措施分为主动安全(如电子稳定系统ESP)和被动安全(如安全气囊),前者预防事故发生,后者降低事故损失,两者同等重要。


  电信引入NFV架构后,硬件、虚拟化层、VNF三者串联,安全风险激增。为此NFV也有解决之道:通过云平台的热迁移、重生、快照,通过虚拟网元的备份、弹性、异地容灾等措施实现架构级的可靠性,但这些本质上属于被动安全的范畴。


  通用硬件在主动安全方面的缺失有着历史渊源。在技术上,受摩尔定律推动,CPU等关键芯片每隔2年就更新换代,通用服务器的生命周期只有3年左右;在应用上诸多IT用户群更关注其他因素如性价比。


  下一代NFV硬件的主动安全问题迫切需要改善。随着半导体工艺进入纳米级别,硅基材料在5nm产生的“量子隧穿”效应达到了晶体管的物理极限,摩尔定律受到严重挑战,服务器的更新速度也日趋减缓;在应用方面,付费的电信用户对服务体验追求极致,对业务故障难以容忍;同时运营商存在大量的传统机房,有着更苛刻的温度等环境要求、更严格的电磁兼容性和安全要求。


  中兴通讯有着丰富的电信设备可靠性设计经验,推出了全系列真正具备电信级可靠性的服务器产品、存储和网络产品。产品适应极热、极寒、海滨、沙漠、地震带等极端自然环境,适配从中心机房到边缘机房到集装箱式机房等多种场景,保证设备在5—10年整个生命周期5个9的可靠性,为运营商NFV的实施、推广提供主动安全保障。

 

  技术演进生生不息,第一代NFV以通用硬件为基础实现了软硬解耦和快速商用,完成了历史使命。而下一代NFV硬件要立足长远,中兴通讯基于对电信行业的深刻理解引入了硬件4大关键技术:软件可定义基础设施、硬件加速技术、液冷散热技术和主动安全技术,使NFV硬件具备更灵活的架构、更高的性能、更低的能耗和更高的可靠性,助力NFV进入全新的发展阶段。