王德政 中兴通讯中心研究院总工 申山宏 中兴通讯网管及服务系统部部长
纵观历史,每个革命性技术的出现,都会大幅提升社会生产效率。例如车轮的发明提高了人类交通与运输的效率,电报电话的发明提高了人类通信效率。最近这几年大数据技术加速发展,与各个专业领域的结合越来越紧密,必然会像冶金、印刷术等技术一样,在不远的将来渗透到各行各业中,并全面提高社会生产力。
大数据与AI在应用层面的融合
在大数据诞生以前,智慧很难通过机器得到。各个行业的智慧发现都是依赖各行业的专家。一个专家的能力与他经验知识的积累密切相关,他所积累的知识越多,做出正确抉择的可能性越大。但人类专家的工作不仅效率低下,而且准确性也较差,特别是在经验或数据缺乏的情况下,专家们往往依靠直觉做判断,更加剧了结果的不准确性。
从数据中获得智能,当前有2个独立但又相互关联的技术路线。其一是大数据的分析挖掘技术,其二是基于机器学习的人工智能(AI)技术。无论是分析挖掘技术还是机器学习技术,都是依托海量数据进行建模,并最终输出智慧。从应用的角度来看,这两种路线逐渐趋向融合,并可以在技术层面做演进与替代。
例如,对于电信领域的智能运维,当前是基于分析挖掘技术对网络数据进行分析,定位网络故障,形成自动化运维闭环。未来可以采用深度学习技术,对网络数据进行建模,对网络故障进行更加准确的定位。从自动化运维角度看,并不关心底层使用的技术是分析挖掘还是深度学习,所能感知的只是分析准确度的提高。
在未来各类应用系统中,分析挖掘与AI并存演进将是普遍存在的现象,当前基于大数据技术构建的大多数应用系统,未来都或多或少地存在向AI系统演进的可能性。例如金融反洗钱反诈骗、智慧医疗、互联网舆情监测等,都可以同时受益于大数据与AI的技术进步,提供越来越智能的分析,提升生产效率。
大数据与各专业领域的结合
全球知名咨询公司麦肯锡提出:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
各类行业的生产系统每天都在产生海量数据,例如智慧城市的政务数据、物联网传感器数据等。这些生产系统在长期的建设过程中,呈现系统碎片化与数据碎片化的现实状况。而大数据通过与这些生产系统的对接,对这些生产系统的数据进行提取、筛选与保存,将解决生产系统碎片化与数据碎片化的问题。同时,大数据系统可以完成原有生产系统无法完成的数据综合分析,提升生产系统的效率。
我国智慧城市发展的一个瓶颈在于信息孤岛效应,各政府部门不愿公开、分享数据,造成数据之间的割裂,无法产生数据的深度价值。城市运行体征是通过数据量化表现出来的,政府信息化的高速发展已使政府产生了几百TB的数据,但数据本身没有任何意义,只有经过一定的系统分析之后,才能发挥数据的价值。但这些数据散存在政府各个部门中,需要收集各委办局有关城市运行体征的数据,帮助城市管理者进行数据汇总、分析,最终对城市体征的量化形态即各类数据进行管理,供政府管理者使用,这些数据才能产生价值。而大数据系统与这些委办局系统的对接,可以解决智慧城市中信息孤岛的问题。
随着物联网的发展,传感器产生的数据越来越多,积累的历史数据也越来越多。这自然而然就产生了对数据的实时分析、历史数据的价值挖掘等需求。某种意义上甚至可以说,物联网技术在推进着大数据相关技术的发展。
对于最近热门的区块链技术,从当前来看,区块链与大数据还是两个相对独立的领域。虽然区块链当前还存在并发交易能力不够等问题,但未来大数据与区块链技术的结合,将会是自然而然的。未来大数据与区块链技术的融合,很可能是一种技术互补形式的融合。例如,区块链的可信任性、安全性和不可篡改性等特性,可以用来加强大数据系统的安全隐私与鉴权系统;另一方面,区块链技术能够帮助解决拷贝数据威胁,有利于建立可信任环境,促进数据资产交易的发展。
大数据系统与各行业生产系统深度结合,才能保持长久生命力,并具备经济可行性。两者相互促进,共同演进,最后甚至有可能统一成一套系统。
隐私与安全成为数据应用的基础门槛
看到大数据所带来的好处时,也要正视大数据所伴随的隐私与安全问题。当前大数据平台与大数据应用已经向各行各业渗透,如果不能解决数据的隐私与安全问题,将会对大数据的应用产生极大的负面影响。
当前中国,对个人隐私信息的保护还处在灰色地带,个人信息可以被肆无忌惮地收集、分析、使用,大众对个人隐私泄露的担忧阻碍着大数据应用的发展。
在个人隐私保护方面,欧洲走在世界的前列。经过多年的争论,2016年5月4日欧盟公布了《一般数据保护法规》(The EU General Data Protection Regulation,简称GDPR)。这是一部具有跨时代意义的隐私保护法规,也是个人隐私保护领域保护最严格、范围最广、处罚最严厉的法规。它不仅适用于欧盟境内的公司,非欧盟公司只要收集、处理、监控欧盟内自然人的信息,就会受到GDPR的管辖。GDPR将于2018年5月25日正式实施,届时在欧盟境内开展业务的公司(包括中国企业)必须确保自己的行为、产品、所建系统等符合GDPR的规定。相信国内针对公民隐私信息的立法保护也会很快开展,届时,大数据应用才能摆脱桎梏大发展。
在数据安全方面,毋庸讳言,当前基于纯开源系统构建的大数据系统,其安全性非常脆弱。
2016年12月10日,京东12GB用户数据被明码标价售卖,被泄露的数据包括用户名、密码、邮箱、电话号码、身份证等多个维度,数据多达数千万条。
2016年12月27日,黑客组织利用配置存在漏洞的开源MongoDB数据库展开了一系列勒索行为。上万个无须身份验证的开放式MongoDB数据库被黑客攻破,其数据库内容会被加密,受害者必须支付比特币赎金才能找回自己的数据。
2017年1月12日,全球使用广泛的开源全文索引引擎Elasticsearch被攻击勒索,攻击者删除Elasticsearch所有索引信息,并要求受害者支付比特币以赎回被删除的数据。此次攻击被删除的数据至少500亿条,被删除数据至少450TB。在勒索事件发生后,有1%的Elasticsearch启用了验证插件,另外有2%则关闭了Elasticsearch。
这一系列的大规模数据安全事件,为大数据应用的发展投下了浓郁的阴影。特别是对于部分开源组件,大多数应用者缺乏对开源组件进行安全加固的能力,仅仅是“拿来主义”,这样的系统更是风险重灾区。
中兴通讯的大数据DAP平台,基于开源系统做了隐私与安全加固。不仅在系统内置了隐私脱敏算法,还系统化地进行安全扫描与加固,消除纯开源组件的安全隐患。
隐私与安全,是大数据应用必须面对的问题。在业界的不懈努力下,这些问题将逐步得到解决,为大数据在各个行业的大规模应用扫除障碍。
随着大数据向各个传统行业的渗透,未来的大数据技术将会无处不在地为人类服务。就如同文字融入我们生活的每个细节中后,我们就难以意识到文字是一项伟大的发明。未来大数据与各个行业应用将相互交织,人类在享受大数据所带来的便利时,或许,都难以意识到大数据技术的存在。