元数据是企业信息资产的索引,统一元数据管理将元数据统一存储、集中控制,提供一种可扩展的元数据管理方式,提升企业元数据管理的成熟度。
数据治理需求
数据治理是制定正确的原则、政策、流程、操作规程,确保以正确的方式对数据进行管理。数据治理的目标是将分散、多样化的数据通过标准化、质量探查、清洗、集成及监控等操作进行优化,形成数据管控体系,持续运行,提升、挖掘数据的应用价值。
在数据治理的技术实施层面,首先需要定义数据模型,根据不同的行业,建立数据模型实体、属性及其关系,从业务概念和逻辑规则层面统一定义数据模型。然后,通过元数据建立业务与IT的桥梁,自动获取数据业务含义,帮助理解数据,增加分析的敏捷性。元数据管理帮助提高信息的透明度、有效性、可访问性、一致性及可用性,是数据治理的核心支撑组件。
国内外对元数据管理的需求日益增加。大数据相关技术让政府、企业数据的价值能被充分挖掘,但是大数据往往意味着数据源之间的采集、传播和共享,例如移动个人数据、社交网络数据、公共数据、物联网数据等,这些过程需要基于大数据的元数据管理的支撑。元数据管理是政府、企业数据治理的重要手段,政府、企业内部数据形态多样,标准不统一。基于大数据、通用的统一元数据管理将成为政府、企业信息管理的核心。
技术选择及价值分析
传统的元数据管理系统基于关系数据库开发,元数据模型定义采用传统的数据字典方式,扩展性差,通用性不够,存储及计算能力不足。
中兴通讯政企大数据平台选取基于开源框架的Apache Atlas,设计并实现一种基于大数据的统一元数据管理系统。平台使用图数据库+大数据平台存储元数据实例并对元数据实例建立索引,使用图搜索引擎+大数据搜索引擎方式查询元数据对象及血缘关系。
基于大数据、通用的统一元数据管理的系统,能够在大数据环境下,管理任意类型的元数据,打破定制化的元数据维护模式,支持自动获取零散分布的元数据,提供大规模元数据的存储能力,从而建立统一的元数据视图。在统一的元数据视图之上,我们可以进一步地获知元数据血缘,方便地进行元数据搜索。
政企大数据平台的统一元数据管理方案给客户带来以下价值:
-建立统一的元数据视图;
-存储大规模的元数据,对外提供大规模元数据的服务能力;
-插件式、可扩展的元数据采集系统,自动获取和关联元数据;可扩展的元数据类型系统,可对任意元数据对象建立模型;
-多粒度展现元数据变更和变更影响分析;追溯元数据血缘关系,了解数据在系统中流动变化的来源和目的;
抽象度高、通用性强,适用在任何与数据管理相关的应用领域。
中兴通讯政企大数据平台统一元数据管理方案
中兴通讯政企大数据平台统一元数据管理方案的系统架构如图1所示。
统一元数据管理系统共包含五个模块:元数据类型管理模块、元数据可视化维护模块、元数据采集模块、元数据存储索引模块、元数据服务模块。
-元数据类型管理模块
该模块用于元数据类型新增、删除、更新、查询。系统使用现实世界面向对象模式定义元数据类型,每个元数据类型有若干属性,元数据类型之间有继承关系、关联关系、包容关系。元数据类型建模方法既能定义结构化元数据,也能定义非结构化元数据,具备很强的灵活性和通用性。
用户定义一种新的元数据类型包括4个步骤:设计基本类型、设计对象属性类型、设计对象类型、设计对象类型的继承关系。
系统加载新的元数据类型,首先解析枚举、结构、标签定义,创建基础类型实例;其次解析继承关系,创建抽象元数据类型实例;之后解析对象类型,创建元数据类型实例;最后解析对象类型之间的关联、包容、继承关系,向元数据存储索引模块发起存储请求,创建各元数据类型节点,并且在元数据类型节点之间增加边,建立图谱关系。
-元数据可视化维护模块
系统设计一套可视化元数据实例维护规则,打破常规的定制化界面维护元数据的方式,提供了通用的可视化元数据维护方法。
通过定义元数据类型的属性扩展规则,实现特性化的可视化处理,规则包括:属性可视化规则、属性值域校验规则、属性值域规则。
系统根据元数据类型属性及其扩展属性规则,元数据类型之间的包容关系,元数据类型之间的关联关系,自动生成通用维护界面。当用户进入可视化模块维护元数据实例时,系统解析元数据类型属性及其扩展规则,创建属性特性化配置界面,用户的配置操作遵从属性扩展规则;系统解析元数据类型包容关系,创建钻取界面,用户可钻取式查看子元数据;系统解析元数据类型关联关系,创建关联界面。子模块与元数据存储索引模块交互,实现元数据实例的新增、修改、删除和查看。
-元数据采集模块
插件式的元数据采集架构,桥接业界主流数据库、大数据平台、消息接口等,自动获取零散分布的元数据,接收外部同步的元数据实例。
-元数据存储索引模块
元数据存储索引模块,利用大数据无固定列、可横向扩展、高实时并发的存储计算特点,将所有元数据实例、元数据实例关系通过图数据库引擎统一存储到一张表中(例如:HBASE),减少了传统方式的数据表定义的工作量,系统在存储元数据实例的同时,提取元数据实例中信息创建元数据索引以便于高效查询(例SOLR、Elastic Search)。
-元数据服务模块
元数据服务模块与元数据存储索引模块交互,实现多样化的元数据查询服务。元数据服务模块支持多实例部署,能提高用户并发能力。
实施成果
开源发布的Apache Atlas框架版本存在一些缺陷,部分设计框架不适合实际应用场景,为此我们做了部分优化改造,例如:设计通用的数据处理模型来完善元数据血缘追溯,增加元数据变更统计,修改元数据实例不能有效删除的故障,修改元数据实例新增修改未检测唯一性属性的故障等。
中兴通讯政企大数据平台统一元数据管理系统通过了严格的系统测试,拥有完善的元数据类型管理、通用的可视化元数据维护管理、多样的元数据采集功能、完善的元数据血缘追溯功能,为数据治理产品提供服务支撑。元数据管理帮助用户建立统一的数据地图,对外提供高效、灵活的查询服务,数据集成、数据安全、数据质量等功能均依赖元数据管理获取待治理的数据并设计数据处理任务,完成数据治理的目标。
中兴通讯政企大数据平台统一元数据管理系统已在多个智慧城市项目中完成实际开通验证,并通过了功能和性能入网测试,为上层丰富多彩的应用提供最基础的支撑。