当前位置: 华文问答 > 数码

明明可以语音输入,为什么大家还会发语音消息?

2017-05-08数码

从2个方面来回答这个问题:

1、语音中包含的信息量要远远多于文本。

从内容上来讲,语音消息和文本消息包含了相同的语言学内容。除此之外,语音消息还包含了以下的信息,这些信息都是文本所不具有的:


a)语音消息包含说话人信息。

从文本上看并不能确定消息的发送者是就是手机的拥有人。例如盗用账号进行诈骗,从字面上我们难以确认是否是自己的熟人所发。当然信件可以通过字体来进行判断写字人,这是字迹鉴定,这里不做过多讨论。

通过语音我们是可以判断出对方是否是我们的熟人。这个技术的学名叫做声纹认证(Speaker recognition),其依据就是人的声音和指纹一样具有可辨别行。录音作为呈堂证据也是这个原理。声纹技术在人工智能中也有提现,比如大家都说同样的一句话「我想听歌」,智能系统推荐出的歌曲却不相同。其实现原理就是利用声纹技术,识别出不同的说话人,然后依据个人的喜好,推荐不同的歌曲。


b)语音消息包含情感。

文字可以包含情感,通过文字表达喜怒哀乐很常见。但是相同的文字用不同的语气读出来表达的意义可能完全不同。前段时间关于华东师范大学中文系2012届毕业生的一篇题为【网络会话中「呵呵」的功能研究】的论文引起热议想必大家都还有印象。轻声细语的说出来和粗犷的说出来显然是不能相提并论的。

试看下面一段话:

「。·ˇ‸ˇ·。)哼!都怪你们 (`ȏ′) 也不哄哄人家(〃′o`)人家超想哭的,捶你胸口,大坏蛋!!!( ̄^ ̄)ゞ咩QAQ 捶你胸口 你好讨厌!(=゚ω゚)ノ要抱抱嘤嘤嘤哼,人家拿小拳拳捶你胸口!!!(。· ︿·̀。)大坏蛋,打死你(つд⊂)」

光从内容你来看你可能快要被感动,可真正说出来就未必了。可以自行搜索「大叔版小拳拳」。


c)语音消息包含人的健康状况信息。

语音是通过声带振动,然后经过口腔、鼻腔甚至胸腔和额的共鸣最终发声。不同的发声技巧会形成不同的音色,进而形成不同的唱腔。每个人正常讲话的方式通常是固定的,音色也固定,从而具有可鉴别性。如果生病导致鼻子堵塞或是嗓子肿胀,都会影响音色。因此关心你的人通常能够通过你的声音判断你是否健康。


以上这些都是语音消息中所包含但文本消息中不具有的信息。


2、语音识别还没到准确令人满意的程度。

目前语音识别的水平看似已经不错,手机输入发的准确率已经蛮高了。但这些都是有前提条件,那就是「近讲、安静环境」。如果你走在嘈杂的马路上,或是在喧闹的集市中,性能就未必如你所想的那么好了。其实从另一个方面来讲,如果语音识别真的如此好的话或者你只关心说话内容时,那么完全可以在微信中识别成文字查看内容。显然结果并不总能让人满意。当然各家语音识别性能也有差距,这里我们暂且不论。

关于语音识别的进展请移步这里:https://www. zhihu.com/question/4682 9056


3、语音技术的未来

其实说了这么多,最大的限制还是语音技术。这里的语音技术包括语音识别,声纹认证,情感分析等等。所以大多数场景下我们更习惯于在手机上点击操作,而不是用语音来控制设备。或者控制设备的时候,更倾向于发送一条文本指令而不是一条语音指令。


技术的进步改变我们的生活方式这一点是毋庸置疑的。随着语音技术的进步,相信语音会在很多场景下得到更好的应用。比如腾不出手的时候控制智能设备,比如同机器人的交流等等。


以上