AlphaGo的横空出世,让人工智能(Artificial Intelligence,AI)技术实实在在地火了起来。在CES2018上,AI语音更是呈现燎原之势。为什么在发展了几十年后,AI语音技术突然火了?原因就在于识别的准确率上,尤其是最近几年深度学习技术的应用,使得语音识别的准确率越来越高,基本达到了可使用的状态。
本文对AI语音识别技术及其技术难点做简单的介绍,同时介绍了语音识别技术在家庭多媒体上的应用前景。
语音识别技术简介
语音识别作为人机交互的一大热点,主要包含下面四个方面:
● 自动语音识别(Automatic Speech Recognition,ASR),让机器听得见;
● 自然语言理解(Natural Language Understanding,NLU),让机器听得懂;
● 自然语言生成(Natural Language Generation,NLG),让机器能思考;
● 文字转语音(Text to Speech,TTS),让机器能说话。
本文将重点介绍在家庭媒体领域中涉及最多的前两项技术,即如何让机器听得见和听得懂。
自动语音识别
自动语音识别技术是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。
自动语音识别技术的目标是让机器能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。 自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。
语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科,是语音信号处理学科的一个分支。
自然语言理解
语音转换成文字后,其实计算机还是不知道其具体的含义,这就需要通过自然语言理解来确定这段文字的真实含义,进而让机器理解人类的诉求,并对这个诉求做出应对。
要实现自然语言理解,远不如人们想象的那么简单,而是十分困难的。从现有的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标。但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有些已经商品化,比如在家庭多媒体方面的智能语音应用。
语音识别技术在家庭多媒体中的应用
智能语音识别技术可以应用在很多领域中,如果聚焦到家庭,当前的应用主要集中在智慧家庭。通过支持语音识别的智能语音设备,如智能音箱、家庭媒体网关、机顶盒等,我们可以绕过复杂的按键、文字输入搜索等操作,以语音控制的方式实现很多事情:
● 早上醒来,我们不再拿手机看时间,而是可以直接对着空气问,“现在几点了?”“今天天气怎样?”“外面是否在下雨?”等等,家中的智能语音设备将会直接给你答案。
● 获取新闻,安排日程。通过智能语音设备,可以收看或收听新闻,也可以问机顶盒“我今天的日程安排是什么?”,让您轻松开启一天的工作和生活。
● 娱乐时间,当我们想看电视时,可以通过内置了智能语音功能的家庭媒体设备(比如Android TV机顶盒),用语音的方式选择想看、想听的内容,比如播放Youtube中的短片或音乐。如果您的设备中有HBO Now(HBO的OTT APP)、Netflix、Youtube或一些音乐类的APP,我们可以通过说出具体节目的名字来搜索到相应内容;如果不知道具体的名字,可以通过“请找出关于***的电影”,或者“听点音乐”等模糊的输入线索,找出相关的内容。
● 在语音AI出现之前,在电视上购物是非常麻烦的,有了AI语音,只要对着话筒(遥控器、远程Mic或移动设备上的APP)说出想要的产品,就能快速便捷地找到心仪的产品。
● 对智能家居的控制,比如对电视机的控制,通过AI语音,可以轻松地实现开机、关机、调高音量、调低音量等操作,还可以实现对家庭智能设备如灯泡、热水器、电饭煲、电动窗帘等的控制。
如今业界智能语音识别的参与厂家非常多,如Nuance、科大讯飞、云之声、百度、腾讯、Google、Amazon、Apple、微软等。
语音识别技术在家庭中实际应用的典范当属Amazon。Amazon于2014年推出业界首款智能音箱Echo。除播放音乐外,Echo也是家庭设备控制枢纽(兼容Nest/IFTTT等产品),可连接第三方服务(如叫车,定外卖等)。随后Amazon 不断丰富Echo 家族产品,至今各型号已累计销售破千万台。Echo家族产品线也引领着智能音箱行业的发展。
Amazon始终围绕语音交互设计产品,他们的定位也非常清晰——家庭,在定位之下来找产品的消费环境。围绕其语音业务Alexa,Amazon打造了一个开放系统,为产品加入源源不断的第三方服务。
再看Google,2016年5月19日,在年度I/O开发者大会上,谷歌发布配有内置扬声器的语音激活设备Google Home。Google Home可以通过语音控制家庭设备。2016年10月5日,又推出能通过语音助理Google Assistant,“声控”的Google Home。2017年,Google正式将Google Assistant集成进其Android操作系统,也就是说在后续的Android TV电视、Android TV机顶盒中都将内置这一功能。
Strategy Analytics发布的研究报告《全球WiFi音箱预测2014—2022》显示,全球基于WiFi的无线音箱出货量在2016年增长62%,达到1400万台,其中搭载智能语音系统的达到42%,约590万台。预计到2022年,全球智能音箱产品出货量会增加十倍以上。
语音识别的发展现状及展望
当前语音识别的准确率虽然已经有了非常大的进步,但距离理想中的要求还有些距离。一般来说,影响语音识别准确率的因素主要有以下几个方面:
● 背景噪声。虽然现在随着深度神经网络(Deep Neural Network,DNN)等技术的发展,语音识别对噪声的鲁棒性有了很大的提高,但在信噪比比较低(比如零以下)时性能下降得特别厉害,尤其是在背景噪声是人声的时候就更差了。
● 口音的影响。以世界范围内通用的英语为例,就有美音、英音、印地英语、中式英语等,即使在美国,各个地方的人说话也有不同的口音。更不用说方言更加多样化的中文了,中文比起英语,更增加了声调、韵律等。口音的识别准确率仍然是当前的一大难点。
● 自然的说话方式。语音识别的技术是机器学习,机器学习通常是通过对不同的人的语音进行采集,进而根据这些样本进行学习的过程。语音采集的样本更多的是类似“朗读”的方式,我们也可以称之为很正式的方式。但在日常生活中,说话方式往往比较随意,不会刻意说得慢而清晰。自然语言中词与词的连接、多音多义字词等也给识别带来困难。语音中还会有大量的连音、吞音、发音变形,还有“嗯、啊、呃、这个、那个”等无意义的发音和重复、纠正等。另外还涉及到语法的复杂性,错用语法等情况也经常发生。目前这方面的识别准确率也不是特别高。
● 对句义的正确理解。有时候句子通常并不只是字面上的意思,例如,“你能把盐递过来吗?”,一个好的应答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再如,如果一门课程上一年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。
● 特定领域和主题。对于特定专业领域的词汇,机器需要经过更专业的“训练”才能理解并作出反应。
虽然语音识别技术还没有达到理想的状态,但随着技术的不断进步,在未来的3—5年,依托于语音识别的语音交互方式必将成为人机交互的主要方式。
[关键词] 智能语音