数据分析利器,大数据可视化技术

发布时间:2015-02-01 作者:彭建华,洪科(中兴通讯)

       从不同的角度,业界对大数据有不同的定义,研究机构Gartner对大数据(Big data)的定义是:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据具有4个区分于传统数据的显著特征:数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)。根据IDC的《数字宇宙》报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,数据处理效率就是企业的生命。将海量数据通过可视化的方式展现,是大数据的关键处理技术。


  Thomas和Cook在《Illuminating the Path: The Research and Development Agenda for Visual Analytics》中对可视化的定义是:可视分析是一种通过交互式可视化界面,来辅助用户对大规模复杂数据集进行分析推理的科学与技术。可视分析的运行过程可看作“数据→知识→数据”的循环过程,中间经过两条主线:可视化技术和自动化分析模型。从数据中洞悉知识的过程主要依赖两条主线的互动与协作。


  大数据可视分析是指在大数据自动分析挖掘方法中,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。数据的背后隐藏着信息,而信息之中蕴含着知识和智慧。大数据作为具有潜在价值的原始数据资产,只有通过深入分析才能挖掘出其中蕴含的信息、知识和智慧。未来人们的决策将日益依赖于大数据分析的结果,而非单纯的经验和直觉,因此,大数据分析是大数据研究领域的核心内容之一。


  人类从外界获得的信息约有80%以上来自于视觉系统,当大数据以直观的可视化的图形展示在分析者面前时,分析者往往能够一眼洞悉数据背后隐藏的信息并转化成知识和智慧,因此,大数据可视化是大数据分析的最重要环节。可视化涉及传统的科学可视化和信息可视化,大数据分析将掘取信息和洞悉知识作为目标,所以信息可视化技术在大数据可视化中扮演非常重要的角色。


  信息可视化分为一维信息、二维信息、三维信息、多维信息、层次信息、网络信息以及时序信息可视化。面向大数据主流应用的信息可视化对象主要是文本可视化、网络(图)可视化、时空数据可视化、多维数据可视化。可视化的展现形式主要有3种风格,即单纯图、单纯表以及图与表结合。展示图的类型丰富多样,包括二维平图、三维立体图以及多维立体图等;展示的表主要包含一般列表、交叉列表、分组列表、主从列表等。通过图表的结合,能够从不同角度反映、表达大数据包含的深层次、高价值的信息。


  大数据的可视化,就是对大数据分析处理后的结果,通过平面图、立体图以及各种表的形式,从多维度、多角度对大数据进行展示。中兴通讯大数据分析处理平台的整体架构如图1所示,与一般数据量的处理系统的整体框架相比,中兴通讯大数据分析处理平台整体架构并没有多少不同,不同的是架构中使用的处理技术与处理方法。


  中兴通讯大数据分析处理平台现有架构中,爬虫提取Web内容时使用分布式并行处理方法与技术,对数据进行实时并行处理;ETL使用当前主流的Hadoop、storm处理平台与框架,使用批处理、流处理等相关技术与方法,实现高效的数据清洗、抽取、转换以及实时数据挖掘与数据分析。在数据清洗、抽取、转换以及挖掘中,结合复杂事件处理技术与逻辑,一方面实时高效地把分析、处理后的关键信息实时推送到实时可视化界面,及时从多维度、多角度展示大数据处理过程中的关键指标与信息,另一方面把分析处理后的数据高效存入HBase数据库,供后续进一步的分析、挖掘、可视化处理。


  中兴通讯大数据处理平台通过提供可视化设计工具,灵活、快速地满足不同用户对数据不同角度的可视化需求,以多维度、多种方式把数据分析结果直观展现给用户,在实际的大数据项目中达到了非常好的效果。图2是中兴通讯大数据分析处理平台从二维、多维立体全方位展示大数据处理结果的效果图。


  在图2中,三维云图对数据进行了立体展示,从多维、立体角度揭示了数据反映的物理现象;使用二维散点图展示液压机的压力变化,揭示压力与地质的关系,通过对压力数据的展示,直观地揭示并展现了整个煤矿的地质结构。

  数据可视化技术是有效发掘大数据价值的重要保证与手段,中兴通讯大数据分析平台提供的可视化设计工具,能够显著提高大数据可视化内容的开发效率,提高大数据可视化项目质量,减少项目实施风险。