基金项目:国家自然科学基金项目(60202003,90204002);国家杰出青年科学基金(60025104)
随着社会和技术的发展,用户对服务质量(QoS)的要求也越来越高。为了管理具有QoS[1]的电信业务,服务等级协定(SLA)[2]被提出来解决用户和服务提供商之间有关保证服务质量的问题。SLA是服务提供商和用户双方之间的协商协定,是存在于服务提供商和用户之间的一个合约(或者合约的一部分),是在服务品质、优先权和责任义务等方面达成的协议,是一种电信服务评估标准。
SLA的目标是营造网络运营健康发展的生态环境,让用户享受到的不仅仅是一种口头承诺的服务,而是受到法规约束,权益获得有效保障的服务。成熟的电信运营商通过SLA可以建立忠实稳定的大用户;而新兴的电信运营商则可以借此来吸引用户,赢得竞争优势。
SLA的基本内容包括SLA参数的定义和计算、SLA表示方法、SLA管理方法等。目前,对SLA已有相当数量的研究成果。电信管理论坛的TMF701文档着重讨论了SLA参数框架和SLA生命周期两种SLA管理方法;GB917[3]定义了SLA服务可用性参数和性能报告内容,但没有涉及SLA表示方法;IETF草案[4,5]提出了SLA表示方法的需求和重要性。但是关于SLA参数选择与测量、SLA表示方法和表述形式、SLA违例处理等SLA的关键实现技术和系统应用等内容还没有具体规定。
1 SLA的管理需求
为了能够准确定位SLA的管理内容和SLA管理的重要意义,需要深入理解和分析SLA的管理需求。SLA的管理需求分为4个方面,前3个方面遵循增强的电信管理运营图(eTOM)商务处理模型,分别涵盖业务实现阶段、业务保障阶段和用户接口管理,第4个方面是其他一些管理需求。
在业务实现阶段,SLA管理的重要内容是SLA的协商和签订。一个SLA应该清晰明确地定义以下内容:用户能理解的业务可测量性能指标和参数;用户和服务提供商(SP)的责任;业务性能的测量方法、测量周期和报告周期;SLA违例后触发的SP操作;业务相关的报告类型,包括每个报告的内容、格式、目的地、条件和传送方式;SLA覆盖的每个业务的定义;业务覆盖时间。对于任何业务,用户应该能选择需要被保证的参数和参数值的范围。
业务保障阶段的SLA管理需求是在业务已经被配置完毕并对用户提供业务的保障过程中需要考虑的,主要关注业务质量等级的监测和提供给用户的信息报告。SP必须能够对照SLA的承诺,在用户或授权的第三方能接受的范围内监视和测量实际的业务性能,所有SLA参数相关的面向用户的业务信息必须按照SLA中的协定按时地发送给用户。SP应该为每个参数设置软阈值,在接近故障时提前警告。按照SLA规范的程度,用户应该被告知可能会导致SLA违例的业务降级的信息。
用户接口管理的SLA要求关注用户和SP之间的接口,以及SP如何对用户相关业务和SLA查询做出响应。SP应该提供对用户业务质量等级查询的快速相应。用户则能够报告问题、故障,请求处理,以及通过电话、传真或电邮查询业务状态信息,并且可以通过多种方式收到答复。
其他管理需求包括:SLA应详细定义并唯一标识每个业务模块;性能报告过程应使用SLA中定义的业务标识符作为报告的基础;应明确定义业务或性能的例外处理和用户的责任,比如向SP报告问题的优先选择方式、联系方式的提供等。
2 SLA与QoS、网络性能的关系
网络性能由于面向对象、属性特征、作用范围和测量范围的不同,具体分为业务性能和网络性能两个层次。不同层次的性能通过性能因子来描述,而性能因子是由许多参数共同描述的高层概念,即一个性能因子可能需要用多个参数的某种组合进行描述。
SLA是存在于服务提供商和用户之间的一个正式的、经协商的合约,被设计用于产生对服务、优先权和责任的共同理解,对服务质量等级的约定是SLA的主要内容。SLA模板组成如图1所示,SLA模板至少需要包含3方面内容:服务等级目标、违例处理和不可抗因素声明。其中服务等级目标是通过定义SLA参数来描述的。SLA参数除了包含QoS参数,还包括业务等级优先权、参数权重和需要通过已知SLA参数计算才能得到的衡量运营服务整体质量状况的服务可用性等高层参数。
ITU-T E.860[6]协议中的QoS定义为:QoS是提供商为用户提供的服务与两者间的协定之间的一致性程度,即通过比较QoS目标值和QoS测量值,得到QoS的定量评估,是衡量服务整体水平的量化表示。对于下一代互联网的业务来说,服务质量是某种业务的服务质量。QoS参数是用户与服务提供商协商并定义在SLA当中的与业务质量、网络状况等相关的需要保障的参数,是SLA合约关于服务等级目标的SLA参数的一部分,是构成业务性能和网络性能的性能因子的参数的全集或部分。具体QoS参数的取舍需要根据实际情况来确定。因此SLA、QoS和IP网络性能之间的关系相互关联、相互影响,是密不可分的共同对业务运营服务水平进行科学评估的有效依据。
3 SLA的实现技术
3.1 SLA表示模板
SLA表示模板是用户方和服务提供方在业务级别、业务品质、优先权和责任义务等方面对某种特定业务的SLA内容进行规范化定义的表示方法。SLA表示模板称为SLA表示模板实例,它对SLA表示模板的具体内容给出确定说明或限定。
SLA协商阶段的主要困难是协商的双方:服务提供者和用户缺少公共可遵循的SLA表示模板。一方面,服务提供者每次需要从头开始建立一个SLA,增加了工作量,减缓了SLA的开发进程;另一方面,不同的服务提供者使用各自的术语对用户诠释SLA内容的语义,导致用户对同一类型业务的SLA指标的理解产生歧义,对双方的合作形成障碍。因此没有通用的表示模板很难保证长期的用户满意度,签订的合约也不具有通用的意义。
SLA表示模板的定义是通过模板的方式来体现SLA的表示方法,简化SLA协商过程和规范服务流程,更好地为服务提供商和用户提供服务保障。本文定义的SLA表示模板是一个通用的模板,不依赖于具体的业务和实现技术,在SLA协商的初级阶段可以很好地发挥作用[7]。基于前面提出的规范SLA表示方法的特征和SLA的表示内容,本文提出图2所示的SLA表示模板,模板采用面向对象的设计方法,构造的过程也是SLA表示方法的建模过程。SLA表示模板由4个部分组成:服务部分、技术部分、商务部分和质量报告部分。
服务部分包括信息标识、服务范围、服务等级、服务计费。信息标识是对用户、服务提供商和服务基本信息的描述;服务范围说明了服务提供商在向用户承诺服务水平时明确界定所服务的网络范围是在业务接入点之间还是在网络接入点之间,以便选取相应的服务参数并确定“承保”的网络设备、线路和使用者的情况等;服务等级是用户选择的服务的级别,不同级别对应不同的服务质量和服务费用;服务计费是根据一定的计费原则和服务级别对服务计费。
技术部分包括服务质量指标集合、网络拓扑信息和性能监测。服务质量指标集合是对所有质量相关的指标的汇总,其中包括服务指标集、业务指标集和技术指标集;网络拓扑信息是对网络的一种直观的抽象,便于把握全局;性能监测主要是对服务质量相关的数据的监测,根据监测到的情况及时调整服务升级或降级。
商务部分包括违例的处理和对不可抗拒因素的说明。违例中应该明确说明违例的条件和违例时采取的行为和步骤;不可抗拒因素则是对人为的无法保障或实现的情况的一种额外说明,指明哪些SLA违例属于例外,可以免除服务提供者的赔偿。
质量报告是提供给用户和提供者的分类服务质量报告,它从服务部分、技术部分和商业部分中获取数据,通过报告的形式把SLA中规定的服务质量数据和统计结果作为服务质量评定的重要依据。
3.2 SLA违例处理
SLA违例处理是在SLA中定义的服务提供者没有满足所承诺的服务等级时需要对用户进行赔偿的内容和方式,同时还应该明确说明违例的条件和违例发生时采取的行为和步骤。违例处理是为了保证SLA协商的公平性、合法性和有效性,是SLA协商过程中的一个重要内容,对建立公平的奖惩机制和维护用户的权益有着重要的意义。
违例处理中应该明确说明判断违例的条件和违例时采取的行为和步骤,当承诺的流量模式或服务质量参数没有满足时会触发违例处理。
违例的发生有如下两种情况:一是SP发现网络状态没有满足SLA的约定,如网络流量拥塞、故障引起的网络中断;二是SP或者用户发现服务质量降级,没有达到SLA中约定的业务等级。违例处理的流程如图3所示。输入的测量参数分为3类,分别是:服务参数、流量参数和性能参数。通过与约束阈值的对比来判断是否发生了违例,然后进行相应的处理。需要根据不同的违例情况确定不同的罚金算法,根据违例的程度确定是否发送警告信息,根据参数值的劣化程度决定是否进行流量整形、服务挂起或者终止等操作。这些违例处理最终都应该统一生成处理报告输出,根据处理报告可能会动态调整一些参数的约束阈值,所以输出还要反馈给约束阈值模块以便对约束阈值适当调整。
3.3 SLA指标评价体系
提供真正综合的SLA管理的难题是对所有相关的网络数据、业务数据和用户数据进行有效管理需要收集来自不同层次的大量原始数据,并进行关联处理、计算和管理。SLA指标评价体系如图4所示,在单个SP的前提下,资源管理层、业务管理层和用户管理层数据的采集、分析、计算及各层间的传递构成SLA指标评价体系。
资源管理层负责数据的测量、过滤和计算,生成影响SLA的端到端的数据,包括网络性能数据、流量数据和服务可靠性数据,向其上的业务管理层发送网络性能通知、流量通知、网络故障通知、网络故障清除通知。
业务管理层负责数据分析和计算,向其上的用户管理层发送网络性能报告、网络性能降级通知、网络性能降级报告、流量通知、故障通知、故障清除通知。
用户管理层负责数据分析和计算,生成发送给SP和用户的各类SLA质量评价报告。
4 SLA的系统应用
SLA通过实际的系统应用可以使用户明确自己的需求,检查SLA的执行情况,帮助服务提供商了解用户需求及用户使用网络的情况,从而制订相应的服务质量管理发展规划,优化服务,提升核心竞争力[8]。通用的SLA管理系统功能框架由SLA数据管理、SLA问题管理和SLA管理3个部分组成,如图5所示。
SLA管理模块对提供给用户的服务质量进行监控、管理和报告,并把该质量信息与定义的SLA参数进行比较,得到服务是否违例的报告。该过程关注特定服务实例中与SLA合约相关的指标,包括网络性能参数(如时延、抖动等),服务性能参数(如服务可用性、平均故障修复时间)等。如果SP提供的服务不符合SLA标准,可能引起计费调整。
SLA管理模块具体完成如下功能:
(1)SLA质量评估
管理用户业务的质量,确保用户接收的服务质量满足用户签署的合约。检查来自其他过程的有关服务质量的数据,如果数据不满足服务质量则向相应的功能模块发出告警。
(2)SLA违例管理
确保通知用户及相关功能模块业务质量降级和违例并确保采取措施解决降级或违例。当签署的业务服务质量违例时,分析SLA违例信息,采取相应的违例处理操作,并通知用户业务质量和违例处理信息。
(3)质量报告
报告用户服务质量,管理相关用户服务等级报告的生成和描述,按照用户的要求定制质量报告和提供实时质量报告的查询。
SLA问题管理模块对影响业务的故障做出及时反应,调用业务配置模块或自己触发解决过程。
SLA问题管理模块具体完成如下功能:
(1)问题诊断
对资源管理层上报的故障,确定问题发生,并通知用户;针对用户投诉信息请求资源管理层调查,确认是否存在问题并反馈。
(2)解决问题
根据故障信息、性能信息分析问题原因,提出解决方案,触发相关模块依次执行问题解决方案。
(3)问题关闭和报告
进行必要的测试,以确保业务恢复到正常服务质量;结束对问题的处理,并向用户发布故障清除报告。
(4)故障信息和用户投诉查询
查询故障原因,查询影响业务的当前故障,查询当前故障相关的业务配置和性能信息,查询用户投诉相关信息。
SLA数据管理模块负责网络配置、性能、故障、计费等相关信息的统一收集和处理,并转发相关信息至不同的处理过程,跟踪网络流量变化,监测网络故障信息,判断网络资源情况,发送性能数据至SLA管理功能模块和SLA问题管理功能模块。
SLA管理系统的软件开发设计可以基于数据采集层、资源管理层、用户管理层3层架构形式。建议采用分布式测量、集中式管理的模式。通过采用分布式测量的方法来获取相关数据,定时地对采集来的数据进行映射、计算和分析,由分析的结果同时结合网络运行的特点以及用户与SP之间的SLA要求来判断网络运行状况是否正常,是否满足用户的服务质量需求,为网络运行情况以及用户和SP之间SLA执行情况的评价提供参考。
5 结束语
本文介绍了多个标准化组织和论坛有关SLA的研究现状和存在问题,充分讨论了SLA的管理需求,分析了SLA、QoS和网络性能之间的关系,并剖析了SLA管理的3种实现技术:SLA表示模板、违例处理和指标评价,论述了SLA的实际系统应用。
由于SLA的相关研究还处于起步阶段,如何进一步规范SLA管理内容,定义通用性和专用性相结合的管理方法,形成统一的工业标准是SLA未来的研究重点。
6 参考文献
[1] ITU-T Rec E.800. Terms and Definitions Related to Quality of Service and Network Performance Including Dependability[S]. 1994.
[2] TMF701 v2.0. Performance Reporting Concepts and Definitions[S]. 2001.
[3] TMF GB917 v2.0. Service Level Agreement (SLA) Management Handbook[S]. 2004.
[4] Salsono S, Ricciato F, Winter M, et al. Definition and Usage of SLSs in the AQUILA Consortium[R]. IETF draft-salsano-aquila-als-00.txt. 2000.
[5]Goderis D, T´Joens Y, Jacquenet C, et al. Service Level Specification Semantics and Parameters[R]. IETF draft-tequila-sls-00.txt. 2000.
[6] ITU-T Rec E.860. Framework for a Service Level Agreement[S], 2002.
[7] Zhang R Y, Qiu X S, Meng L M. SLA Representation and Applications in the NGI Service Management[A]. Proceedings of the IEEE International Conference on E-Commerce Technology for Dynamic E-Business (CEC-EAST´2004)[C]. Beijing(China), 2004. Los Alamitos (CA,USA): IEEE Computer Society, 2004:242-245.
[8] Evans J, Filsfils C. Deploying Diffserv at the Network Edge for Tight SLA, Part2[J]. IEEE Internet Computing, 2004,8(2):61-69.
收稿日期:2005-11-16
[摘要] 随着网络服务的内容越来越丰富,用户对服务质量(QoS)的要求也越来越高。为了管理提供QoS保证的电信业务,服务等级协定(SLA)被提出,用来解决用户和服务提供商间有关QoS保证的问题。SLA表示模板、违例处理和指标评价是SLA的3种关键的实现技术,一个典型的SLA管理系统通常包括SLA数据管理、SLA问题管理和SLA管理3个部分。SLA的研究还处于起步阶段,需要进一步规范SLA管理内容,定义通用性和专用性相结合的管理方法,形成统一的工业标准。
[关键词] 服务等级协定;服务质量;表示模板;违例;网络性能
[Abstract] With more and more network services developed, network customers now have higher requirements on the Quality of Service (QoS). In order to manage the telecom services supporting QoS, Service Level Agreement (SLA) is proposed to solve the problems about QoS between the customer and the service supplier. The presentation template, violation disposal and index evaluation are three SLA key implementation technologies. A typical SLA management system generally includes 3 units: SLA data management, SLA problem management and SLA management. The research of SLA is still in the primary stage. It is necessary to further specify the contents of SLA management, to define the generality-specialization-combined SLA management methods, and to make a unified SLA standard finally.
[Keywords] service level agreement; quality of service; presentation template; violation; network performance