世界万物都在不停产生信息,在科技不是特别发达的时代,大部分信息都没有记录下来,这些信息包括物体表面颜色、温度、承受的压力等,在当前的时代也仅仅能收集其中很少的一部分信息,主要是电脑产生的数据和部分传感器有选择接收的数据。根据Gartner的报告预计,2020年全球的数据规模将达到40ZB。大数据技术的兴起为处理这些数据提供了解决方案,并使得人类可以从这些之前被丢弃的数据中获得想要的信息和知识。
什么是大数据?大数据需要具备4V特征:体量(Volume)、多样化(Variety)、价值(Value)、速度(Velocity)。针对大数据,保存、挖掘、变现,都是技术难题,需要对应的解决方案。随着并行化计算技术的发展,硬件成本的降低,使得并行计算得以普及并解决日常活动中遇到的大数据问题。利用多台廉价的PC服务器组成分布式底层物理基础架构,分布式文件系统可实现分布式架构下的文件系统分片管理,并对外提供标准的POSIX文件接口。
针对不同类型的数据和不用的应用场景,大数据计算引擎有不同的类型。HBASE解决大数据快速但是逻辑简单的查询;MapReduce处理框架可以灵活编程来实现各种分布式业务逻辑;spark提供了一整套的解决方案,包括批处理程序;实时流计算框架streaming、SQL接口的Spark SQL,以及和streaming引擎类似但速度更快的storm流事件计算引擎、分布式查询搜索引擎,都为大数据应用提供强力支撑。不同的处理引擎配合各种分析挖掘算法,可以实现各种场景下的数据分析和价值发现。
为了解决大数据在各种应用场景下的需求,中兴通讯推出DAP大数据平台综合解决方案。DAP平台在开源的基础上提供了中兴通讯自有的一整套可管可控、高可靠性的商用大数据平台版本,分为数据ETL(Extract-Transform-Load)层、存储计算层、开放数据服务层、挖掘分析层以及统一管理功能(见图1)。
底层数据ETL层为大数据分析获取数据,包括ETL数据处理引擎、针对互联网的网络爬虫、处理大数据平台和关系型数据库之间的导入导出组件、分布式日志抽取引擎FLUME。
存储计算层为数据提供保存和分析计算的各种引擎,包括底层的保存数据的HDFS、统一管理集群资源调度的YARN组件、针对离线任务的MR处理组件、HBASE针对半结构化数据的查询的组件、基于STORM的复杂事件处理引擎CEP、支持类SQL查询的HIVE、IMPALA引擎。
大数据基础平台技术的发展解决了大数据如何存储和如何挖掘的问题,但现阶段多数大数据系统面临的难题是如何变现,这是企业建设大数据系统考虑的核心问题。
让大数据系统能变现或者说成为一个经济上可行的系统,需要一个开放的交易平台,中兴通讯DAP平台的ODPP组件正是用于此目的的中间件。ODPP是在通用开源组件的基础上为数据开放和交易开发的中间件层,包括对多租户的管理和支持、统一SQL、数据交换和共享三大组件。多租户组件为多租户实现资源隔离和负载均衡路由,针对每个租户使用的资源计费功能,通过API的形式开放数据能力;统一SQL功能可以让使用者不关心数据存放在哪个存储引擎上,无论是关系型OLAP数据库还是大数据平台组件,ODPP可以通过元数据管理自动帮助用户识别,并把SQL语句引导到正确的存储引擎上;数据交换和共享组件为数据交易提供了可能,可以实现多个租户之间的共享,共享过程中形成了数据交易,保存交易记录,并为这些交易记录输出交易话单。有了这些特性,结合多种技术手段,应用系统可以设计不同的商业模式。
挖掘分析层提供挖掘算法和工具箱,包括OLAP和报表组件、基础算法库和图算法库、R工具、搜索引擎和推荐引擎、通用的文本分析和标签库工具、GIS组件、一些通用的可视化Dashboard,为开发大数据应用提供一整套的工具箱。
统一管理功能提供在整体框架上的一致性管理,包括自动化安装、平台监控、主机管理、服务管理、告警管理、安全管理和调度策略管理,为整个大数据平台的可管、可控、可运维提供了一致性的用户体验。
中兴通讯DAP大数据平台为大数据提供了一整套方案,有以下特点。
● 简化的运维管理:开源组件的集成和运维通常是一个很复杂的问题,DAP平台提供了批量自动化安装、丰富的服务状态展示、实时事件告警、日志跟踪和审计,提供简洁的运维。
● 增强的安全管理:支持基于角色的一整套权限管理,支持数据脱敏,支持同城异地双活灾备,确保客户的数据得到最大的保护。
● 开源组件功能和性能增强:在开源的基础上提供配置参数优化提升性能,并做一些功能增强。
● 开放数据交易平台ODPP:在开源的基础上,支持数据的统一开放,支持多租户,并实现数据共享和交换,为数据交易提供基础平台。
大数据系统能否被企业或政府部门广泛接受,关键因素是其本身是否具备可持续的变现能力,是否能适应变化的商业模式。中兴通讯DAP大数据平台,构建了一个通用的大数据平台,在这个平台上可以按照客户的要求部署基于不同商业模式的应用系统,为客户取得商业成功提供技术保障。