当前位置: 华文问答 > 数码

未来语音技术或者语音智能助手的发展方向是什么?

2013-06-06数码

首先必须要声明一下啊,作为一名语音技术的研究人员,显然非常不能接受有童鞋说的十年之内语音技术只能用于输入法的说法,这不是要砸我饭碗么……好了好了,言归正传。

细看一下,题主似乎问了两个有些区别的方向,一个是语音技术,另一个是语音助手。显然, 语音技术只是语音助手的入口和出口(语音识别和语音合成),而语音助手只是语音技术的某一具体应用,这两者是不相同的

对于语音技术,可能大部分外人的理解还仅仅局限在语音识别上。事实上,当我给别人说起自己专业的时候,都是用「语音识别」(尴尬ing)。其实,语音技术还包括非常多实用的方向,比如说话人识别、语种识别、语音合成、音色转换、语音增强等等。

语音技术能做什么?想象一下,当你回到家说一句「芝麻开门,我是xxx」,门就为你打开;你也可以对家里的电器说话,而它们(他们?)只接受你这个主人的控制,是不是有种真的当家做主人的感觉?而借助于语种识别,不管你说的是汉语还是英语乃至阿拉伯语,你的机器都能准确地完成你交付的任务;至于音色转换……当你想念一个美女或者帅哥的时候,你可以……咳咳……


图1 几种典型的语音处理技术

就语音技术而言,未来的发展方向是非常多样的。举个栗子,许多互联网公司都在研究怎么利用说话人识别来自动进行身份验证,比如网银付款时的辅助认证、金融公司的反欺诈黑名单,同时避免某些心怀不轨的人用录音等方法冒充身份。所以你单看说话人识别,发展方向也是多方面的。有人可能觉得这个场景似乎科幻了,但是实际上这些技术里实用是一步之遥,像阿里等企业已经在尝试相关技术了。显然,单纯谈输入法,也太小瞧我们大语音了吧。(对,我就是这么不服气)

不得不说,语音识别是现在最为耀眼、大家生活中接触最多的语音技术。近些年来,语音识别技术突飞猛进(参见为什么 Deep Learning 最先在语音识别和图像处理领域取得突破? - 科研君的回答为什么 Deep Learning 最先在语音识别和图像处理领域取得突破?),自然地受到了广大公众的极大关注。毕竟,语音识别的进步代表着机器的听力发展,是人工智能的重要一步。回过头看语音助手,也一定程度上搭上了语音识别的顺风车吧?

再来聊聊语音助手。其实我感觉,「语音助手」这个词还是有点过于狭义。如果我们仔细想想,所谓的「语音」,不过是作为人机交互的一种手段,「助手」更重要的是能帮你完成你想要完成的工作。假设你有一个聋哑人秘书,你每次都需要把要他做的工作写在一张纸上,而他则能非常完美地将你考虑到的、没考虑到的细节一丝不苟地完成,你能说他不是一个好秘书吗?(懒癌患者表示不是……)

当然啦,我们之所以要一个助手就是为了更加轻松的生活,而这种轻松自然是要求轻松到底、解放双手的。懒是人类进步的原动力嘛。所以,要想最大限度地发挥智能助手的潜能,语音接入终究是必不可少的。

作为语音识别、自然语音处理最完美的结合,我充分相信未来的语音助手有无法估量的广阔前景。 这肯定不是我学科自信心膨胀啦,而是一点小小的预测。当然,这预测也仅是我个人的预测,真正的世界中还需要面对无数的困难与挑战。

现状


先来看看目前最为著名的几个语音助手。


1. Siri

自然,Siri因为是第一款进入公众视野的软件,具有最高的知名度;


2. Google Now

谷歌的语音接入服务;


3. Cortana

Cortana(小娜)我使用了一年,留下了极好的印象,以至于一直流连于wp平台(绝对是真爱)。顺便一提,小娜和小冰是微软分别主打语音识别和自然语音理解的两大平台,感觉有点像我上面谈到的「语音」和「助手」的概念;


4. Echo

Echo准确来说是一款亚马逊的语音交互硬件平台,在国外接入了许多服务,由于采用了麦克风阵列,语音识别正确率也得到了保证;


5. VIV、出门问问……

而VIV是上个月刚刚发布的系统,也是我感觉最符合未来语音助手发展方向的作品。出门问问则是中文口语对话系统的优秀代表,口袋有米的同学可以买个他们的ticwatch试试。


除了这些知名系统之外,许多互联网公司(如淘宝)也都有自己的「小助手」。

那么问题来了:既然助手这么多,可为什么日常生活中我们没用起来的样子呢?答案你肯定知道,那就是「不够好用」啊。

举几个我遇到过的场景:让Siri发个短信,说了半分钟,它说没听清,要我再说一次,我上次说得很累懂不懂;让Cortana帮我查一下菜谱,它给我弹出来搜索页面,看得我眼花缭乱,我还等着烧菜呢;想搜索一下路线,说完地址它告诉我没有安装相应的应用,请先下载……各种累觉不爱。

不可否认,语音助手的可用性比几年前已经有了极大的提高,但是在很多时候,你仍然会被他的too young too simple伤害到。也正是这些不够好用,使得许多语音助手停留在被调戏的层面上。你说,谁会调戏现实中的助手呢?

语音助手的发展方向?


不知道各位童鞋同不同意上面说到的那些问题和缺点。不管怎么样,你肯定也遇到过类似的困扰,久而久之就忘记了手机上还有一个语音助手的存在。而未来的发展方向,其实想来很简单,就是如何解决语音识别、语义理解、操作执行等存在的问题。

从技术细节角度看,我们希望有更好的语音识别性能,特别是在噪声环境下鲁棒的语音识别性能,别一句话听不懂让我说十遍;我们希望自然语音理解能做得更加完善,从我随意的口语中分析出我真正的需求,不要总是说「伦家听不懂啦,能不能换一句」,说一次是卖萌,说十次我就当你是傻了。

从实际工程应用角度看,我觉得有两个急切的需求, 一个是可穿戴设备的交互;另一个是通用的应用程序入口

可穿戴设备:


可穿戴设备由于体积等原因的限制,仅能拥有非常局限的输入输出设备。比如智能手表,虽然最新的Android Wear已经支持了键盘输入,而看了下图。。。为什么我有种揪心的感觉……

图2 在智能手表上用屏幕录入(图片来自Engadget)

再比如VR、AR、MR、XXXR遍地蔓延的今天,你带这个头盔,怎么输入呢?貌似各个厂家都在推出控制手柄,而遇到网址等需要一个字母字母输入的情况就嘿嘿嘿了。显然,在这种应用场景下,内置一个语音助手势必是最好的交互方式。而针对可穿戴设备,语音助手可以是高度定制化的,比如手环负责手环的问题,手表负责手表的问题、VR眼镜负责VR眼镜的问题。并不需要多么复杂的语法分析等技术。当然,如果你想让你的手表回答所有问题,帮你做所有手机能做的事,那么就需要看看下一个方向了。

通用应用程序入口:


简单点说,就是现在VIV正在干或者说想干的事情。如果你不知道什么是VIV,我先摘一篇报道Siri之父再出山,Viv想要「吞并」整个互联网。一句话来概括,VIV就是希望通过一个语音助手,解决所有现在你需要用APP去解决的问题。

图3 智能助手VIV(图片来自Engadget)

试想一个现在的场景:比如你要定酒店,你可能打开携程搜索一下,决定一个比较好的航班;再打开去哪儿搜一下,对比一下携程;如果去国外,我可能还会打开Booking,再和携程、去哪儿对比一下。如果要定外卖,分别打开饿了么、美团、百度;要买东西,依次打开淘宝、京东,货比三家……且不论做不同的工作需要不同的APP,就连做同一件事都可能需要浏览一众的APP。VIV的终极目标是去APP化,只需要你一句话,就自动帮你找到网络上最好最适合你的选项,所有APP都不需要了。你说这样的助手你用不用?

当然,这只是一个最美好的图景,你首先就要问:作为一家互联网企业,谁能放弃入口这么重要的东西呢?就像这篇报道淘宝在下一个十年还是不是电商领域的王者?,让出自己的资源,那岂不是自杀么?而VIV这样的助手是想抢各位大佬的饭碗吗?

不得不承认,这个难题需要整个行业共同努力去解决(是否真的能解决也是打上一个问号)。因此,在语音助手上,相比技术上的进步,行业生态环境才是真正的阻碍。就像下面有人说的,如果智能语音一旦和商业服务做到精准对接,势必是杀手级的。毕竟,我们用语音助手是想方便地办事,不是和他胡侃海聊瞎调戏的嘛。

总结一下,我心中语音助手的未来就在满足可穿戴设备的需求和提供ubiquitous(无所不在)的服务之间。(除此之外,智能电话客服也是一个类似的应用场景,不知道和你们说的助手是不是一回事了。)

非常喜欢乔布斯的一句话:「至繁归于至简」。手机硬件是这样,想必语音助手的未来也是这样吧。为了达到至简,还有很长的路要走。一个拥有所有APP功能的平台,想想还有点小激动呢。真心希望语音助手不要成为「21世纪的生物」(学生物的朋友们,真的没有黑你们)。



【「科研君」公众号初衷始终是希望聚集各专业一线科研人员和工作者,在进行科学研究的同时也作为知识的传播者,利用自己的专业知识解释和普及生活中的 一些现象和原理,展现科学有趣生动的一面。该公众号由清华大学一群在校博士生发起,目前参与的作者人数有10人,但我们感觉这远远不能覆盖所以想科普的领域,并且由于空闲时间有限,导致我们只能每周发布一篇文章。我们期待更多的战友加入,认识更多志同道合的人,每个人都是科研君,每个人都是知识的传播者。我们期待大家的参与,想加入我们,进QQ群吧~:108141238】


【非常高兴看到大家喜欢并赞同我们的回答。应许多知友的建议,最近我们开通了同名公众号: PhDer ,也会定期更新我们的文章,如果您不想错过我们的每篇回答,欢迎扫码关注~ 】


http:// weixin.qq.com/r/5zsuNoH EZdwarcVV9271 (二维码自动识别)