以数据为中心的平台架构与业务构建

发布时间:2019-01-25 作者:王德政 郭海生 中兴通讯

以数据为中心的IT系统架构

大数据与人工智能、物联网等技术紧密结合,为各行业应用提供数据的存储计算与挖掘分析,最大限度地提升数据蕴含的价值。从某种意义上说,大数据已经成为各行各业的“隐身”基础通用技术。

传统的IT架构,以硬件、软件、算法为核心进行系统的构建。但随着大数据技术的发展,以及软硬件能力的提高,对海量技术的存储计算与挖掘应用成为可能,导致数据在整个系统中的地位越来越重要。如图1所示,IT系统也逐渐转变为以数据为中心的系统架构,以数据处理为核心需求,构建以数据为中心的IT架构,系统地解决数据采集、存储、治理、分析、负载均衡等贯穿数据全生命周期的需求。

 

 
从传统的观点看,一个IT系统是以统一的人机界面,统一的软硬件为特征的。但一个人机界面与软硬件统一,但是数据却不统一的烟囱系统,随着以数据为中心理念的发展,将会越来越难以被接受,并成为生产力发展的阻碍。相反,在数据为中心的背景下,一个数据统一,但人机界面与软硬件平台不统一的系统,反而是可以被接受的。

从数据组织的角度看,数据必须被更严密地组织与管理,才能切合上层应用的需要。各行业在数据组织与管理上普遍存在数据标准不统一、数据质量低、数据管理困难等挑战。这些挑战一方面需要通过管理手段来解决,另一方面则需要通过数据治理技术手段进行辅助。

从数据的分析角度看,当前业界大数据与AI相互融合,已经成为事实。大数据为AI提供数据处理能力,而AI为大数据提供增强的数据建模能力。大数据必须与AI紧密结合,才能以数据为中心,提升数据的建模能力与应用能力,进行应用开发,实现数据价值。

从数据的采集角度看,各行业可以通过大数据与物联网之间的技术融合,协同打破数据孤岛,以数据为纽带,一体化协同发展。

大数据治理是实现以数据为中心架构的关键技术

-各行各业涌现的大数据应用,在其组织与管理上遇到了很多困难与挑战:

-数据缺少业务定义,难以进行业务分析;

-数据自不同的系统,缺乏统一的标准,互通受阻;

-数据质量参差不齐,其完整性、准确性、一致性、时效性难以保证,分析结果的可信度大打折扣;

-数据间的内在关联未能建立,跨业务、跨领域的分析难以开展;

-数据使用中安全与隐私保护不足,存在违反法律法规的风险。

大数据要真正成为企业的系统核心,数据治理是必由之路。从2017年开始,大数据治理已成为产业生态圈中的研发重点。不少企业在积极地开展实践,一般步骤为“建立组织架构和规范→梳理应用需求→梳理企业数据信息→引进大数据治理技术平→治理数据”,治理后的数据成为企业资产为数据应用与数据运营提供基础。

大数据治理的最终目标是为了应用数据。数据只有被使用不断流通,才能最大限度地发挥其价值。因此大数据治理不能只关注数据本身,还要面向业务需求,根据用户所需开展治理活动。大数据治理是一个系统工程,总体来看需要具备统一元数据管理、数据标准管理、大数据质量管理、主数据管理、大数据集成,以及大数据安全与隐私保护这六个方面的关键能力与技术。

通过大数据治理,获得及时、准确、可靠、安全脱敏后的高质量数据,可以以此为基础,构建IT的核心架构,为更广泛的应用、企业的数据化转型提供强有力的辅助手段。

大数据与AI协同构建数据分析处理能力

人工智能(AI)在广义上是指任何能够让计算机通过图灵测试的方法和系统;而狭义上则是指通过研究人类智能产生的方式来让电脑模拟人的智能。

进入21世纪,随着神经网络算法的不断优化,面向GPU的编程接口带来了计算力的提升,这使得可以针对结构更复杂(多层神经元)的网络高效完成训练。传统的神经网络也因为其复杂度和层数大幅度增加而改名为深度学习。我们可以把深度学习理解为以数据为基础的复杂神经网络学习系统,是传统神经网络在数据模式驱动下的演进和发展。

Google在2016年将其战略从“移动优先”转变为现在的“AI优先”。在移动时代,Google通过其知识图谱、自然语言处理、翻译、语音识别、图像识别、地图等相关产品积累大量的数据和技术,为其AI优先战略构建坚实的基础。所以,Google本质上是一个以数据为基础的公司,是一个大数据公司。

随着互联网/移动互联网的发展,数据量迅速增加。云计算和大数据的兴起,使得计算机存储和处理数据的能力快速提升。从某种意义上说,大数据为AI提供数据处理能力,而AI为大数据提供应用场景。例如,当数据治理涉及跨多个系统与业务时,往往需要借助AI技术以提升其处理能力,才能满足快速激增的海量数据以及快速发展的大数据应用需要。

大数据与AI相互融合,已经成为事实。AI技术通过大数据,获取突破性成果,而以AI技术为特征的大数据应用则遍地开花,逐步渗透到各个行业和各个领域。我们面对的是一个以数据为中心,以大数据应用为标志,以人工智能技术为特征的新时代。融合大数据平台的AI解决方案是适应当前技术发展趋势并且具备良好市场需求的产品。

大数据与IoT协同打破数据孤岛

物联网本身不是新概念,在20世纪90年代就已被提出。最近,以物联网为基础的智慧生活、智慧城市、智慧地球等设想正在不断成为现实,物联网成为各技术巨头竞相布局的技术高地。

物联网广泛融合了大量的现有技术,涉及通信、大数据、人工智能、数据挖掘、云计算、自动化、电子、材料等众多领域。其最核心的特性是连接与数据:在连接方面,物联网拓展了传统通信网络的功能和范围,将其延伸到更为广泛的物理世界;在数据方面,物联网接入了种类繁多的海量设备,极大地拓展了网络信息数据的来源渠道。据统计,新近全球创建、获取和复制的数据总量中,20%来自物联网,而且增速最快。凭借越来越无处不在的连接、越来越丰富的数据,物联网正成为各类技术进步的新动力和助推器。

简单的、局部的物联网孤岛应用,其数据类型简单、数据量小,很难形成规模和产业效应,影响力极其有限。而大数据可以满足物联网在大规模数据存储方面的要求。例如:Hadoop分布式文件系统(HDFS)、分布式列存储系统(HBASE)、亚马逊S3云存储、微软azure云存储等。同时大数据还为物联网提供了数据处理能力与框架,可以对物联网大规模数据进行离线和实时分析,发掘物联网大规模数据中更多潜在的价值,加快物联网应用的融合。

物联网提供了广泛海量的连接,可以获得大规模的数据;而大数据以及AI的相关技术提供了智能分析能力,可以用于分类、预测、自动决策以及视频、图像、语音的识别等。随着物联网采集数据的增多,智能化程度的提高,以数据为中心的架构就会更加普及,技术基础就会更加坚实。

一个技术,只有当大众意识不到该技术的存在时,才算是真正成熟。例如历史上文字的发明、金属冶炼等发明,都是深刻改变人类社会的发明,但当今社会已经对这些伟大的发明“视而不见”,而将其视作砂石一般理所当然的外部环境。或许在不久的将来,以数据为中心的架构将在各行各业“无迹可寻”,但同时又无处不在。