大数据价值的本质
在人类的发展史中,文字产生以前,零散知识很容易随着部落的变迁而湮灭,更难以此为基础发展出更高的智慧。所以,对知识的占有与利用,一直是人类进步的重要手段。
纵观过去,每个革命性技术的发展,都带来了生产效率的飞跃。车轮的发明提高了人类交通与运输的效率,电报电话的发明提高了人类的通信效率。而大数据技术的本质是提升人类活动的准确性,减少传统方式下的“试错”成本,从而提升社会的总效率。
大数据如何才能提高人类活动的准确性呢?这需要从信息模型来进行分析。从信息的层次模型来看,信息从底向上分为四个层次:数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)。其中,数据只是未经组织的数字、词语、声音和图像等,信息是由数据加上内容定义所构成,知识是由信息加上规则而构成,最高层的智慧是由知识加上经验而构成。而提升人类活动准确性的工作,是位于信息的最高层次,即智慧层来完成的。
无论是对于人类自身,还是计算机系统来说,比较容易处理数据、信息、知识这三个层次的信息,其本质都是数据的存储与检索,只是人类的处理效率与准确性要低于计算机。但是对于如何从知识中获取智慧,无论是对人类还是计算机,都是一件非常困难的事情。
在大数据诞生以前,智慧很难通过机器得到。如图1所示,各个行业的智慧发现都是依赖各行业的专家,一个专家的能力是与他在行业内的经验积累(知识库)密切相关的,其所沉淀积累的知识越多,则做出正确抉择(智慧)的可能性越大。但人类专家的工作效率和准确性均有限。特别是在经验或数据缺乏的情况下,专家们往往依靠直觉做判断,加剧了结果的不准确性。
通过大数据挖掘手段,可以依托海量的知识库,将输入的知识(或信息)转化为智慧。传统的行业专家,未来很可能会被具备行业知识的大数据专家所替代。机器通过海量数据进行挖掘,发现知识并输出智慧,再由人类专家对结果进行检验与校正,通过机器学习,逐步提高结果的准确率。
大数据未来的技术趋势
大数据技术,必然会像冶金、印刷术等技术一样,在不远的将来渗透到各行各业,并全面地提高社会生产力。未来的大数据技术,将呈现三大趋势:数据生成与采集层面,“众包”模式的趋势;数据存储层面,集中存储与统一建模的趋势;数据分析挖掘层面,以智慧生成为目标的趋势。
“众包”的数据生成与采集趋势
在数据生成与采集层面,在未来海量数据的场景下,依靠单一的力量去采集数据,无论在资金成本上,还是在时间成本上,都不可行。例如,传统的酒店评估模式采用使用酒店星级评定标准,简单的结构化数据,如硬件指标等,显然无法满足人们对酒店入住体验的想象。但是,在大数据模式下,只要提供一个类似于“携程”或“大众点评”的数据收集分享平台,就可以将“零散的顾客评价”这类非结构化数据转变成“多维度的用户体验数据”。这些海量数据分析结果可以帮助酒店改善硬件和服务以提高客户满意度,同时精细化目标客户群体,提升营销能力。消费者也能根据自己的个性化需求精准地找到心仪的酒店。
当前成功的大数据系统,特别是面向大众消费者的大数据系统,都是构建一个类似于生态圈的环境,各个消费者角色在生态圈中通过简单的规则进行交互,达到自己的目的,在消费数据的同时也在生成数据。携程、淘宝、QQ,甚至各类在线游戏系统,无一不是采取这种模式。而没采用这种模式的系统,往往步履艰难。例如,传统的导航系统采用雇佣专人在大街上标定建筑物的做法,不仅成本高、更新迟缓,而且准确率也低。百度的导航系统,依赖百度地图,使用者可以直接提交“纠错”信息,以弥补数据生成不足、准确性低的问题。在非专有化的大众导航市场上,“免费”的导航软件,已经占据了主导地位。
以数据为中心的存储建模趋势
在数据存储层面,未来统一的数据中心将成为趋势。对于大众消费类的系统,包括电子商务、游戏类系统,由于是全新构建,数据将天生具备统一存储、统一建模的基因。
而对于企业、政府、行业类的大数据系统,由于历史上已有众多的系统在线运行,要强行统一数据存储与建模,不具备可行性。此种场景下,新建的大数据系统将通过ESB总线的模式,与原有的在线生产系统对接,通过已有的系统进行数据采集,经过转换与建模后进行统一存储,以达到数据共享、互通的目的。
智慧生成的趋势
在数据分析挖掘层面,未来的大数据系统能否生成智慧,替代人类专家,将是区分大数据系统与传统IT系统的关键特征。未来一个无法生成智慧的系统,无论数据量有多大,充其量也就是一个大型的传统系统,而不是大数据系统。相信未来随着数据量的增大,挖掘算法的改进,以及计算能力的提升,大数据系统将可以做出超越人类专家经验与直觉的智慧建议,从而在各个行业大幅度地提升人类活动的准确性,提升整个社会的生产力。
开启大数据时代的钥匙
我们生活在一个大数据爆发的时代,传统的IT系统架构,已经无法适应未来大数据的海量应用、在线计算的需求。中兴通讯大数据平台DAP2.0(Data Application Platform),可以提供完整的大数据存储、大数据挖掘分析解决方案。DAP2.0采用货架式的模块组装结构,可以根据应用场景、应用规模灵活地裁减定制软硬件模块,优化不同场景下的系统构建与运维成本,缩减系统定制开发周期。
当前各个行业已有大量的生产系统在线运行,完全重构这些系统无论是经济成本,还是时间成本,都将无法承受。所以,未来的大数据系统必然要同时承担着“集成”与“被集成”的两种角色。即大数据系统既可以作为原有生产系统的一个子系统被集成,也可以作为主系统去集成原有的生产系统。DAP2.0货架式架构可以灵活适应各类“集成”与“被集成”的场景,在不影响生产系统稳定性的前提下,与原有生产系统无缝集成,引入大数据系统。
随着大数据向各个传统行业的渗透,未来的大数据技术将会无处不在地为人类服务。甚至,人类在享受大数据所带来的便利时,都难以意识到大数据的存在。就如同文字融入我们生活的每个细节中后,我们就难以意识到文字是一项伟大的发明。
当然,在看到大数据所能带来的好处时,也要正视大数据所伴随的隐私问题与安全问题。甚至更长远一些,大数据技术与人工智能的深度结合,是否会产生科幻小说中机器奴役人类的结局?这些问题,都将是未来大数据技术研究的前沿阵地。