明明可以语音输入，为什么大家还会发语音消息？

2017-05-08数码

从2个方面来回答这个问题：

1、语音中包含的信息量要远远多于文本。

从内容上来讲，语音消息和文本消息包含了相同的语言学内容。除此之外，语音消息还包含了以下的信息，这些信息都是文本所不具有的：

a)语音消息包含说话人信息。

从文本上看并不能确定消息的发送者是就是手机的拥有人。例如盗用账号进行诈骗，从字面上我们难以确认是否是自己的熟人所发。当然信件可以通过字体来进行判断写字人，这是字迹鉴定，这里不做过多讨论。

通过语音我们是可以判断出对方是否是我们的熟人。这个技术的学名叫做声纹认证(Speaker recognition)，其依据就是人的声音和指纹一样具有可辨别行。录音作为呈堂证据也是这个原理。声纹技术在人工智能中也有提现，比如大家都说同样的一句话「我想听歌」，智能系统推荐出的歌曲却不相同。其实现原理就是利用声纹技术，识别出不同的说话人，然后依据个人的喜好，推荐不同的歌曲。

b)语音消息包含情感。

文字可以包含情感，通过文字表达喜怒哀乐很常见。但是相同的文字用不同的语气读出来表达的意义可能完全不同。前段时间关于华东师范大学中文系2012届毕业生的一篇题为【网络会话中「呵呵」的功能研究】的论文引起热议想必大家都还有印象。轻声细语的说出来和粗犷的说出来显然是不能相提并论的。

试看下面一段话：

「。·ˇ‸ˇ·。)哼！都怪你们 (`ȏ′) 也不哄哄人家(〃′o`)人家超想哭的，捶你胸口，大坏蛋！！！(￣^￣)ゞ咩QAQ 捶你胸口你好讨厌！(=ﾟωﾟ)ﾉ要抱抱嘤嘤嘤哼，人家拿小拳拳捶你胸口！！！(。· ︿·̀。)大坏蛋，打死你(つд⊂)」

光从内容你来看你可能快要被感动，可真正说出来就未必了。可以自行搜索「大叔版小拳拳」。

c)语音消息包含人的健康状况信息。

语音是通过声带振动，然后经过口腔、鼻腔甚至胸腔和额的共鸣最终发声。不同的发声技巧会形成不同的音色，进而形成不同的唱腔。每个人正常讲话的方式通常是固定的，音色也固定，从而具有可鉴别性。如果生病导致鼻子堵塞或是嗓子肿胀，都会影响音色。因此关心你的人通常能够通过你的声音判断你是否健康。

以上这些都是语音消息中所包含但文本消息中不具有的信息。

2、语音识别还没到准确令人满意的程度。

目前语音识别的水平看似已经不错，手机输入发的准确率已经蛮高了。但这些都是有前提条件，那就是「近讲、安静环境」。如果你走在嘈杂的马路上，或是在喧闹的集市中，性能就未必如你所想的那么好了。其实从另一个方面来讲，如果语音识别真的如此好的话或者你只关心说话内容时，那么完全可以在微信中识别成文字查看内容。显然结果并不总能让人满意。当然各家语音识别性能也有差距，这里我们暂且不论。

关于语音识别的进展请移步这里：https://www. zhihu.com/question/4682 9056

3、语音技术的未来

其实说了这么多，最大的限制还是语音技术。这里的语音技术包括语音识别，声纹认证，情感分析等等。所以大多数场景下我们更习惯于在手机上点击操作，而不是用语音来控制设备。或者控制设备的时候，更倾向于发送一条文本指令而不是一条语音指令。

技术的进步改变我们的生活方式这一点是毋庸置疑的。随着语音技术的进步，相信语音会在很多场景下得到更好的应用。比如腾不出手的时候控制智能设备，比如同机器人的交流等等。

以上