语义分析,在政务大数据中的应用

发布时间:2017-11-17 作者:吕伟初,江滢(中兴通讯)


 吕伟初 中兴通讯大数据规划总工                              

江滢 中兴通讯高级架构师

 

  大数据真正的价值体现在从海量且多样的内容中提取用户行为、数据、特征,并转化为数据资源,对数据资源进一步加以挖掘和分析,增强用户信息获取的便利性,实现从产品价值导向到以客户体验价值为中心导向的转换。


  政府作为政务信息的采集者、管理者和占有者,具有其他社会组织不可比拟的信息优势。


  政府部门在出台社会规范和政策时,采用大数据进行分析,可以避免个人意志带来的主观性、片面性和局限性,减少因缺少数据支撑而带来的偏差,降低决策风险。通过大数据挖掘和分析技术,可以有针对性地解决社会治理难题,针对不同社会细分人群,提供精细化的服务和管理。


  目前政府部门掌握的数据比较权威但相对陈旧,如政府年鉴、工作报告等,还要结合互联网上相对实时的数据(如招聘数据)才能更好地支持决策。但这两种数据大部分都以非结构化长文本的方式存在,需要采用语义分析技术才能有效、全面地提取到有用数据。


  语义分析作为文本信息处理的核心技术,为上层应用提供一些具备共性的业务分析组件,分析结果由应用根据自身特点进行再次加工。基于语义分析的智能检索技术,可以将散落在政府网站上碎片化的信息和应用按照网民访问政务服务的应用场景,自动形成聚合答案,满足用户需求。基于语义分析的热点发现、情感分析技术,可帮助政府舆情管理平台对与各级政府辖区、各部门职责范围相关的各类互联网信息进行全面采集,对敏感、有害的舆情进行定性分析,做到“重要信息早发现”,为政府舆情管理部门提供数据依据,帮助管理部门做出及时、科学的应对。语义分析技术架构如图1所示。

 



  本文重点介绍在政务数字化转型的过程中,如何利用语义分析技术处理政府和互联网大量的文本信息,以满足现阶段数字化转型需求,并介绍了一些典型应用。

 

文本信息提取

 

  文本信息提取基于信息抽取技术,实现文本信息抽取,用于政府工作报告分析和统计。例如,对于经济类文档,提取其中数值及对应含义,存储以构建互联网经济数据库。后续可根据互联网经济数据库,针对产业活跃度、区域经济关联度、社会消费热点、社会通胀通缩预期等进行分析预判。


  ● 典型场景举例


  语料:上半年新设立科技型企业10237户,同比增长32.53%,占全市新设立科技型企业的31.39%。注册资本677.07亿元,同比增长113.62%。


  输出结果:


  新设立科技型企业  10237户;


  同比增长  32.53%;


  占全市新设立科技型企业  31.39%;


  注册资本  677.07亿元;


  同比增长  113.62%;


  对于上市公司年报,提取如下信息:

 

  a.证券代码、证券名称、归属城市、所属行业类别、员工总数;


  b.货币资金、存货、应收账款、销售费用、投资收益、政府补助;

 

  c.营业收入、营业收入同比增长率;


  d.股本规模、第一大股东、第一大股东占比、第一大股东归属城市、外资持股数量;


  e.净利润个指、每股收益个指、净资产收益率个指、归属于母公司股东的净利润、归属母公司股东的净利润同比增长率;


  f.主营增长率个指、主营三年增长率个指、每股净资产个指;


  g.年报中其他涉及数据。


  通过各上市公司年报信息,可以开展如下分析:


  通过上市公司业绩表现/行业分布等多项指标,分析省市上市公司财务指标,对上市公司综合示例进行总体把握;从数据全面分析省市上市公司的经营状况,预测省市产业升级的脉络,观察上市企业应对变化的能力;从股本结构分析,分析推理上市公司规模及公司治理水平,并确定如何提高上市公司质量;通过省市上市公司分布情况、行业统计情况,分析上市公司行业布局是否合理,如何有效配置资源,形成聚集效应和规模效应;分析财务造假及信息披露不规范情况,对政府优化资本市场环境给出建议。

 

情感分析

 

  情感分析功能对网民评论进行褒贬分析,准确了解社情民意,有助于地方相关互联网舆情分析,及地域画像等地方特定主体分析。


  典型场景示例见表1。

 


 

文本分类和聚类

 

  政务应用中存在大量电子公文、电子邮件、电子法规等文档资料,其中大量的文档是在政府业务活动过程中产生,具有很大的保存价值。在电子政务系统中,需要将这些电子文档有效地管理归档。文本分类建立电子文档的自动分类系统,支持智慧城市政务信息主题库文档分类管理。


  分类典型场景:对省长、市长信箱等政府信箱邮件进行分类,便于快速安排对应专人处理。


  聚类典型场景:自动生成新闻专题、重大新闻事件追踪、微博热门话题等。帮助用户多方位地了解热点事件的进展情况,以及相关的网民评论等信息,全面掌握各种相关信息。
 
常识校对 

  (政治)新闻领域的文本错误多为语义级错误。在一些具体观点、国家和地区有关数据的引用、地图边界、国家名称使用等方面可能会出现错误的使用,从而造成政治类知识性错误的出现。基于语义校对,对于政府稿件进行校对审查,避免出现政治错误,以及造成宣传事故和不良影响。

 

文本相似性和智能检索

 

  文档自动查重,可应用于稿件查重、版权保护等领域,也可用于智慧城市文本归档管理中对冗余文件的处理。


  智能搜索典型场景:从政务资讯、办事指南、组织机构、领导名片等常用公众搜索场景入手,支持对政府站群、网上办事大厅、第三方公共服务应用进行实时搜索,提供舆情新闻检索和论坛检索。

 

  在政务数字化转型过程中,语义分析技术推动数据的智能高效处理及信息的深度挖掘,放大政务信息资源的增值效用。基于语义分析技术的舆情监控、社会舆论分析,提高政府监管效率,保障国家安全;基于语义分析技术的垂直搜索,提高行业知识化水平,加强政府服务能力。语义分析技术是建设智慧政府和城市的一把利器,对于提升政府决策效率和决策科学性具有重大的战略意义。