大数据具有几大特征,一是数据量巨大,传统在线事务处理型数据量一般在TB级别,而大数据产生的数据量动辄以PB计。二是数据分析维度不同,大数据往往需要从十几个维度进行综合性分析,这种多维处理有别于传统关系性数据库强调数据间的耦合关系,也有别于NoSQL数据库简单的key-value通过hash散列的键值存储。三是数据分析处理实时性要求多样化,既有在后台的非实时BI商业智能处理(偏重于分析和挖掘),也有类似传统在线的事务处理所需的实时决策(如金融的高频交易系统)。围绕大数据这些特征,底层IT硬件技术有了更大的分化和发展,本文将做简要介绍。
首先,如何以经济的方式高性能存放PB乃至EB级的数据容量?比如智慧城市中基于视频的应用如车牌/人脸识别、车辆/人员轨迹都已经列入大数据范畴,对于此类视频文件的存放和分析普遍基于大容量、高密度的SATA硬盘,通过hadoop等开源软件构建分布式文件系统存放,并提供POSIX化的API接口构建大数据处理平台。近期非常流行一种服务器形态:将计算能力和存储能力结合在一起的存储服务器。存储服务器一般采用2路Intel XEON处理器,具有中等容量内存,提供GE以及10GE网卡,本地带有12~24块SATA硬盘,具有较强的计算和存储能力。众多大型互联网公司都使用这种类型的服务器搭建大数据处理平台,比如腾讯每年对TS6规格服务器(一款2U2路12盘位的存储服务器)采购量巨大。中兴通讯的i8350型存储服务器完全满足TS6规格,并通过相关测试,是在市场上非常受欢迎的一款产品。
其次,大数据处理的数据库平台特别是分析挖掘类应用已经逐步走向列型数据库,而不再是传统关系性数据库的行型数据库。比如Sybase IQ就是一种高性能列数据库,适合OLAP(联机分析处理)应用,具有较强的扩展性。硬件架构上一般采用高性能磁阵加高密度服务器阵列方式组建。中兴通讯的E9000型号刀片服务器在10U高度上支持16块刀片,配合其高性能FC SAN磁阵KS3200系列,可以构建PB级别的OLAP大数据处理系统。中兴通讯很多大数据产品基于此平台架构大规模商用,如在电信领域的UBAS用户行为模式分析产品。
最后,针对大数据应用模型的千差万别,客户很难甄别各种硬件方案,他们需要的是一个经过软硬件整合的大数据处理平台,因此一体机的硬件形态就此诞生,比如Oracle公司的Exadata、IBM的Netezza。这两种一体机平台硬件架构有一定的相似性,都是采用小型机或高端服务器位于一体机前端,负责处理SQL请求的解析和分发,后端有服务器簇进行处理,两家都采用了PCIE SSD等固态存储进行索引处理的加速,IBM还采用了刀片服务器簇上FPGA对SQL处理进行加速。但在存储方案上有一定差异,Oracle Exadata采用架式存储服务器的形式构建分布式存储,而IBM Netezza则采用刀片外接光纤磁阵的方式。一体机的售价和服务费用相当高昂。另外一种一体机形式则采用了硬件定制化方式,也有较大的市场空间,就是SAP公司的HANA数据库。HANA是一种行列混合的内存数据库,支持多节点扩展,因此对内存容量和互联带宽的要求非常高。这几种一体机平台支持各种灵活应用,既适合OLTP(联机事务处理)应用,也可以通过存储容量扩展,支持OLAP应用;既适合后台非实时分析,也支持实时决策,代表了当前大数据处理平台的较高水平。中兴通讯R8500四路服务器采用Intel Brickland平台,单机可支持3TB以上内存容量,是内存数据库的理想硬件平台。此外R8500处理能力强大,可以充当一体机机头,配合基于i8350存储服务器构建的分布式存储系统,作为OLAP应用的一体机平台。
大数据是一种以数据为中心的数据密集型技术,现有的以计算为中心的技术难以满足大数据的应用需求。目前对大数据处理的优化都是基于传统的内存-磁盘访问模式,数据处理的关键“数据I/O瓶颈”一直存在。未来随着硬件新器件和新材料的发展,如相变材料、阻性RAM等逐步成熟商用,将使内存容量大、速度快且不再挥发,基于内存计算的大数据处理技术将蓬勃兴起。