构建与用户的沟通桥梁——中兴通讯手机舆情分析系统

发布时间:2023-04-17 作者:洪科(中兴通讯)

近年来,随着电商的兴起及移动互联网对信息放大效应越来越显著,各厂商对网络中出现的与己相关的各类信息的采集、分析工作越来越重视。一方面,互联网充斥各种各样的信息,另一方面业界缺少有针对性、端到端的舆情分析服务。目前业界主要有两种方式输出内部舆情报告,其一是聘请专业的咨询公司;其二是公司内部专人分析。第二种方式主要采用人工方式生成舆情分析报告,定向关注几个专业网站、门户网站,借助于搜索引擎,获取原始的信息,然后通过人工摘取、整理、汇总得到舆情报告。前一种方式,分析内容、时效性、频率、分析过程都难以控制;后一种方式,效率低下,而且分析过程容易受主观因素影响。不管哪种方式,不同的业务部门因为关注点不一样,同一公司不同部门的舆情报告难以形成共享。


  中兴通讯基于DAP大数据平台系统,推出了公共舆情分析平台,并使用此平台研发了中兴通讯手机舆情分析系统的核心部分:数据分析系统。现有各个领域的舆情系统,通常把数据分析部分当作舆情系统的全部,从用户价值角度思考,这是远远不够的,数据分析是舆情系统的核心但不是全部。中兴通讯手机舆情分析系统由三部分组成:数据分析系统、业务分析系统和企业现有的各业务支撑系统(如售后服务系统、公关系统等)。其中业务分析系统是纽带,而最终的价值体现在业务支撑系统上。数据分析系统负责数据层面的采集和分析,业务分析系统负责业务层面的分析,同时以直观、易读的方式展现数据,业务支撑系统负责利用信息进行相关决策,三者关系如图1所示,图中箭头方向表示系统的数据和价值流输出方向,比如业务分析系统对质量的分析结果可以推送到企业的采购、产线、研发等业务支撑系统;而这些业务系统对数据的使用结果又会对数据分析系统和业务分析系统形成反馈。



  ●   数据分析系统


  数据分析系统,完成原始数据采集、分析和存储功能,包括数据采集子系统、信息抽取子系统、数据分析子系统。


  数据采集子系统,针对不同信息、技术特点,提供三种方式的信息获取方式:静态爬虫,通过发送HTTP请求,直接到目标网站获取信息;动态爬虫,当前越来越多的网站采取富Web客户端技术展现,通过浏览器动态解析后才能够查看到页面内容,动态爬虫通过在服务端模拟浏览器技术获取到特定URL的内容;定向爬虫,针对特定的网站(或内容),采取特殊的技术获取内容,典型场景是借助搜索引擎有针对性地提升在某些网站上特定内容(譬如突发事件)获取的及时性。


  信息抽取子系统,通过自然语言处理技术,将互联网上获取到原始文本信息(非结构化数据)转换成有意义的、结构化的数据,为进一步深层次的分析提供基础。自然语言处理的概念外延非常广,在手机舆情系统里,重点在信息抽取上。整个信息抽取子系统基于UIMA框架研发,主要完成实体识别(譬如手机型号)、主题识别(性价比)、情感识别(正面、负面或者中性情感倾向)。通过信息抽取技术,得到额外信息作为原始文件的附加字段输入到数据分析子系统。信息抽取子系统是对单个文本的分析。


  数据分析子系统,在整个手机舆情系统中,处于核心地位。主要负责数据的全局分析,分析的对象为一个集合,集合由若干个、经过信息抽取子系统处理后的文本组成,每个文本除了原始文本(纯网页文本)外,还附带着大量使用结构化形式表达的信息(或称为标签),数据分析子系统主要完成三个方面的数据分析。


  数据分析一:采取基本的数理统计技术进行多个维度的汇总,同时根据需要,针对不同的标签进行趋势预测、预警等功能。譬如:根据用户对某款手机的评论数增长情况,预测销售量并进行排产。


  数据分析二:对原始文本进行全局分析,使用分类、聚类、主题模型等技术,完成热点识别、主题发现等功能。譬如:通过热点识别技术,发现用户对某款手机的发热现象、待机时间短等与电池相关的讨论较多,相关信息推送到业务支撑系统后,生产车间进行部件的质量排查、研发团队做好ROM系统升级等一系列的准备工作。整个产品团队第一时间感知并快速响应客户的问题,避免造成负面的舆论影响。


  数据分析三:利用前面两项分析得到的数据,进行二次综合分析。譬如:通过分析一,发现用户对某一系列的手机屏幕偏负面的评论较多。通过分析二的主题发现功能,发现AMOLED技术正成为用户谈论的一个热点,那么同一系列的下一款手机设计时采用AMOLED屏幕就会成为一个重要选项。


  ●   业务分析系统


  作为典型的大数据应用,数据挖掘一词在业界的曝光率非常高,但是成功的案例相对较少。当前业界手机舆情分析系统,不成功的一个非常重要的因素就是未与现有的业务系统形成价值闭环。中兴通讯舆情分析平台,在设计之初就将与其他业务的有效集成作为重中之重。业务分析系统,利用舆情分析平台提供的丰富的主题算法,帮助售后、市场、营销、质量等各个业务部门完成数据价值发现。


  多维度数据分析:可从品牌、机型、部件、媒体、正负面情感等多个维度分析舆情信息,不同部门可查看各自关注的信息。


  词云图:可展现搜索词的关联词及其统计信息。售后服务评价标签云体现了与售后相关的词,反映售后的整体情况,便于提升售后服务质量;市场部门可针对某款新推出的手机查看主要讨论的方面,了解市场反响。

突发事件分析:根据主题识别及时抓取识别突发事件,便于相关部门进行快速公关处理,尽早消除不良影响。


  热点识别:根据新闻出处权威度、发言时间密集程度等参数,识别出给定时间段内的热门话题;利用内容主题词组和评论数、评论的情感倾向进行综合语义分析,识别敏感话题。


  售后问题处理:提供售后人员处理售后问题的接口,统计售后整体工作情况,同时提取出主要集中问题及占比、问题反馈数量排名前TopN机型等信息,协助相关部门提前制定应对措施。


  ●   业务支撑系统


  业务支撑系统,是一个独立的应用系统,同时又是整个舆情分析系统中的重要组成部分,能否有效利用业务分析系统的输出结果及对数据分析系统进行有效反馈,是整个手机舆情分析系统成败与否的关键。舆情系统价值最终还是要落实到产品销售和品牌建设上,抛开这两点,孤立地谈论舆情系统是没有多少意义的。


  依托中兴通讯手机舆情分析系统,可以在浩如烟海的互联网中挖掘出数据金矿,了解用户关于手机使用的第一手资料,为手机设计、市场营销、售后管理等工作提供宝贵的参考信息。