1 容灾系统介绍
对于电信行业来说,数据是公司至关重要的资产之一,是系统运行的血脉,保护企业的重要数据是企业成功的关键因素。水灾、火灾、雷击、地震等自然灾害,断电、设备故障、病毒感染、黑客入侵及人为的操作故障都威胁着数据的安全。
建设归属位置寄存器(HLR)容灾系统的核心是对数据的远程备份,其中包括对用户数据信息的远程备份以及对系统业务逻辑数据信息的远程备份。在灾害发生的情况下,对前者的远程备份能够保证用户数据的完整性,而对后者的远程备份则能够实现短时间内完成业务的接管工作。
数据远程备份技术的具体实现方式可分为4种:
(1)基于硬件存储设备的备份方式
存储设备之间通过高速光纤通道相连,完成异地复制功能,如EMC公司的CLARiiON CX系列磁阵[1]。
(2)基于虚拟卷(存储)的软件备份方式
由软件来接替UNIX文件系统的虚拟卷(存储)的硬件I/O操作,将写入虚拟卷的数据通过数据链路传输到备份节点并形成远程的文件镜像,以实现主节点到备份节点数据的备份,如IBM公司的HAGEO软件[2]。
(3)基于数据库备份的方式
通过数据库复制工具将主节点的数据复制到备份节点上,如Oracle公司的Data Guard系统[3]。
(4)基于私有软件的备份方式
通过内部协议将数据从一个节点备份到另一个节点以实现远程备份。
4种备份方式的特点如图1所示。4种远程备份方式技术比较如表1所示。
从复制实时性考虑,数据远程备份技术可以分为同步方式和异步方式:
(1)同步方式。同步传输方式数据传输流程如图2所示,数据先写到远端,等完成后再回到本地做写入动作。同步能保证两个地方的数据在任何时刻都保持精确的一致,但显然速度较慢,使得本地生产中心的应用执行效率低,因为它总是要等待两端的数据都写好以后才能继续下一步操作。
(2)异步方式。异步传输方式数据传输流程如图3所示,资料先写到远端,但不等完成即在本地做写入动作,在本地写完后,给上层应用返回成功响应,速度快。
从数据远程备份技术的体系结构上分可以分为1+1容灾方式和N +1容灾方式:
(1)1+1容灾方式
两个生产节点互为主备方式,即HLR1作为生产节点同时还承担HLR2数据备份的任务。当HLR2发生故障时,HLR1接管HLR2的业务,反之亦然。
(2)N +1容灾方式
备份集中在一个备份中心,集中管理,对应多个生产中心。任何一个生产中心故障,业务都会被切换到备份中心。
从生产地点和备份地点的数据库逻辑实现上分可以分为同构数据库容灾和异构数据库容灾方式:
(1)同构数据库容灾方式
同构数据库容灾是指生产地点的数据库和备份地点的数据库采用相同的数据模型。
(2)异构数据库容灾方式
异构数据库容灾是指生产地点的数据库和备份地点的数据库采用不同的数据模型。
2 HLR容灾系统实现原理
HLR 容灾系统的实现原理如图4所示。利用多信令点技术,备份地点HLR配置自己以及生产地点HLR的信令点,移动交换中心(MSC)对每个生产地点的HLR和信令连接控制部分(SCCP)做备选路由到备份地点HLR,当生产地点HLR发生故障导致业务不能继续进行时,通过7号信令链路和数据库切换可以将生产地点HLR的全部业务倒换到备份地点HLR,用于实现HLR业务的恢复。两个HLR的数据部件之间由光纤通道或ATM连接,可采用基于逻辑卷或者基于硬件等远程同步技术实现用户数据的同步备份。
HLR业务接管处理过程如下:
(1)确定生产地点HLR发生短期内无法恢复的严重故障(以下称其为故障HLR),需要切换到备份地点HLR。
(2)手工操作数据库同步软件,将该HLR数据库切换到备份地点HLR;因为在同步状态下,备份数据库是不可写的,所以必须要中断同步关系,将备份数据库状态更改为可读可写。
(3)将备份地点HLR配置模块中备用数据库属性由“备用”改为“主用”,同步配置。
(4)手工阻塞故障HLR的7号信令链路,激活备份地点HLR的7号信令链路,将该HLR的7号信令切换到备份地点HLR。
3 容灾方案设计
3.1 同步/异步
同步方式的优点在于能保证两个地方的数据在任何时刻都保持精确一致,缺点在于速度较慢,使得本地生产中心的应用的执行效率降低,因而对系统性能影响较大。
异步方式时资料先写到远端,但不等完成即在本地做写入动作,速度快。但是缺点在于可能会丢失数据。对于丢失数据,主要是在异步方式下进行远程数据传输过程中,数据被写入本地后,立即给上层应用回成功响应,而不管远端何时写入磁盘。当主用地点突然发生故障时,在缓存和通信链路上的数据都没有被写到远端的硬盘上。如果主用地点的磁阵损毁了,那么里面的数据也就丢失了。如果磁阵没有损毁,从物理上讲,数据并没有丢失,都存在磁阵上。但是由于业务被切换到备用HLR运行,使用的是备份地点的数据,所以从业务角度看,这部分数据还是丢失了。
选择同步方式还是异步方式主要需要考虑生产地点和备份地点的距离。需要把握一个原则,35 km以内,同步方式和异步方式都可以选择。35 km以外,只能选择异步方式,因为距离过高会产生较大的网络时延。测试表明,两地间的距离从20 km增加到200 km时,每次写操作会至少增加1.8 ms时延,系统每次写操作如果增加0.74 ms时延,系统性能将下降7%~8%。
第三方设备的支持程度也是考虑因素,比如EMC公司的Mirror软件只支持同步方式,不支持异步方式。此外还要考虑系统承受能力。如果用户数目很多,HLR本身运行负荷较高,就需要考虑采用异步方式建设容灾系统。从理论上说,异步方式比同步方式要快。
3.2 1+1/N +1
1+1方式的容灾系统配置灵活,有利于节约成本,但是两个生产节点互相关联,管理困难;N +1方式容灾便于集中管理,可扩展性好,但成本高。
建1+1容灾系统还是N +1容灾系统,主要应从成本方面考虑。建2+1容灾系统的话,相当于平时有1/3的资源是浪费的,如果建1+1容灾系统则比较节省资源。但是建1+1容灾系统需要考虑故障接管期间主用HLR的业务处理能力问题。在1+1容灾模式下,除非两个节点都配置为冗余资源保证,一个HLR故障时,接管的HLR能够完全承受两个HLR业务压力,否则接管时就需要采用流控措施,丢弃一部分业务。
对于多个HLR的情况(即HLR个数大于2个时),推荐使用N +1方式容灾。这样能够集中管理,并且可扩展性比较好。
3.3 虚拟卷/硬件
基于硬件存储设备的备份方式和操作系统无关,能够在AIX和WINDOWS平台下使用。相对于虚拟卷方式,对系统性能影响小。缺点在于需要特殊规格的磁阵。
基于虚拟卷的软件备份方式和操作系统紧密结合,对系统性能影响较大,但不需要特殊的磁阵配置。
选择基于硬件的复制方式还是基于虚拟卷的复制方式,主要考虑现有硬件情况。对于WINDOWS平台+SQL Server数据库的情况,建议选择基于EMC磁阵的硬件复制方式;对于AIX+Oracle数据库的组合,选择基于硬件和虚拟卷的复制方式都可以。
3.4 容灾系统的容量
容灾系统的容量设计需要考虑两个方面的指标:故障接管时的业务处理能力、日常运行时数据同步能力。如果希望故障接管时,保持全业务处理能力。对于采用1+1方式的容灾系统来说,意味着两个HLR必须配置7号前置机和业务处理机为当前运行能力一倍冗余。对于采用容灾中心的容灾系统来说,意味着容灾中心的7号前置机和业务处理机配置应该和业务量最大的一个生产HLR相同。如果希望节约成本,则可以减少冗余设备,甚至只使用当前设备,在故障接管时,通过流量控制,牺牲部分业务。对于数据库节点,需要考虑单个数据库节点能容纳多少用户。在启用容灾系统后,整个系统性能会有很大下降(35%),意味着如果原系统单数据库节点最大负荷100万用户,那么实行容灾后系统可能只能支持60万用户,需要新增数据库节点,才能满足要求。
4 结束语
随着电信业务的高速发展,以及日益激烈的行业竞争,谁首先利用先进的信息技术手段把握市场方向,采用先进的管理方法,对客户提供优质的服务,谁才能够立于不败之地。HLR容灾系统的建设保障了重大灾难发生时HLR业务的连续性,对于客户和运营商本身都有重大的意义,今后必将成为运营商建设的重点。
5 参考文献
[1] EMC Backup-to-Disk Solutions [EB/OL]. http://china.emc.com/products/systems/clariion_cxseries/solutions/cla_backup2disk.jsp.
[2] Disaster Recovery Using HAGEO and GeoRM [EB/OL].
http://publib-b.boulder.ibm.com/Redbooks.nsf/RedbookAbstracts/sg242018.html?Open.
[3] Oracle Data Guard Concepts and Administration Release 2 (9.2) [DB/OL]. http://www.cise.ufl.edu/help/database/oracle-docs/server.920/a96653/toc.htm.
收稿日期:2004-06-18
[摘要] 文章分析了移动通信系统归属位置寄存器(HLR)容灾技术,认为在移动通信系统中,HLR中的用户数据是系统运行的血脉,应通过建设容灾系统,提高HLR网元的业务可用性。文章讨论了设计容灾系统方案应考虑的各种因素:选择同步备份还是异步备份方式,选择1+1配置还是N+1配置方式,采用虚拟卷复制还是硬件复制方式,以及如何设计容灾系统的容量,并给出了具体实施时的指导原则。
[关键词] 归属位置寄存器;容灾系统;备份;生产地;备份地
[Abstract] The home location register (HLR) disaster recovery technology is analyzed in the paper. In a mobile communication system, the user data in HLR is regarded to be the blood of the system. Therefore, a disaster recovery is necessarily required to safeguard the services of HLR components. To design a disaster recovery system, various factors should be put into consideration, such as the backup mode (synchronous or asynchronous), configuration mode (1+1 or N+1), recovery mode (virtual volume or hardware), and system volume. Some practical guidelines for the setup of a disaster recovery system are also given.
[Keywords] home location register; disaster recovery system; backup; worksite; backup site