明明可以語音輸入，為什麽大家還會發語音訊息？

2017-05-08數位

從2個方面來回答這個問題：

1、語音中包含的資訊量要遠遠多於文本。

從內容上來講，語音訊息和文本訊息包含了相同的語言學內容。除此之外，語音訊息還包含了以下的資訊，這些資訊都是文本所不具有的：

a)語音訊息包含說話人資訊。

從文本上看並不能確定訊息的發送者是就是手機的擁有人。例如盜用帳號進行詐騙，從字面上我們難以確認是否是自己的熟人所發。當然信件可以透過字型來進行判斷寫字人，這是字跡鑒定，這裏不做過多討論。

透過語音我們是可以判斷出對方是否是我們的熟人。這個技術的學名叫做聲紋認證(Speaker recognition)，其依據就是人的聲音和指紋一樣具有可辨別行。錄音作為呈堂證據也是這個原理。聲紋技術在人工智慧中也有提現，比如大家都說同樣的一句話「我想聽歌」，智慧系統推薦出的歌曲卻不相同。其實作原理就是利用聲紋技術，辨識出不同的說話人，然後依據個人的喜好，推薦不同的歌曲。

b)語音訊息包含情感。

文字可以包含情感，透過文字表達喜怒哀樂很常見。但是相同的文字用不同的語氣讀出來表達的意義可能完全不同。前段時間關於華東師範大學中文系2012屆畢業生的一篇題為【網路會話中「呵呵」的功能研究】的論文引起熱議想必大家都還有印象。輕聲細語的說出來和粗獷的說出來顯然是不能相提並論的。

試看下面一段話：

「。·ˇ‸ˇ·。)哼！都怪你們 (`ȏ′) 也不哄哄人家(〃′o`)人家超想哭的，捶你胸口，大壞蛋！！！(￣^￣)ゞ咩QAQ 捶你胸口你好討厭！(=ﾟωﾟ)ﾉ要抱抱嚶嚶嚶哼，人家拿小拳拳捶你胸口！！！(。· ︿·̀。)大壞蛋，打死你(つд⊂)」

光從內容你來看你可能快要被感動，可真正說出來就未必了。可以自行搜尋「大叔版小拳拳」。

c)語音訊息包含人的健康狀況資訊。

語音是透過聲帶振動，然後經過口腔、鼻腔甚至胸腔和額的共鳴最終發聲。不同的發聲技巧會形成不同的音色，進而形成不同的唱腔。每個人正常講話的方式通常是固定的，音色也固定，從而具有可鑒別性。如果生病導致鼻子堵塞或是嗓子腫脹，都會影響音色。因此關心你的人通常能夠透過你的聲音判斷你是否健康。

以上這些都是語音訊息中所包含但文本訊息中不具有的資訊。

2、語音辨識還沒到準確令人滿意的程度。

目前語音辨識的水平看似已經不錯，手機輸入發的準確率已經蠻高了。但這些都是有前提條件，那就是「近講、安靜環境」。如果你走在嘈雜的馬路上，或是在喧鬧的集市中，效能就未必如你所想的那麽好了。其實從另一個方面來講，如果語音辨識真的如此好的話或者你只關心說話內容時，那麽完全可以在微信中辨識成文字檢視內容。顯然結果並不總能讓人滿意。當然各家語音辨識效能也有差距，這裏我們暫且不論。

關於語音辨識的進展請移步這裏：https://www. zhihu.com/question/4682 9056

3、語音技術的未來

其實說了這麽多，最大的限制還是語音技術。這裏的語音技術包括語音辨識，聲紋認證，情感分析等等。所以大多數場景下我們更習慣於在手機上點選操作，而不是用語音來控制裝置。或者控制裝置的時候，更傾向於發送一條文本指令而不是一條語音指令。

技術的進步改變我們的生活方式這一點是毋庸置疑的。隨著語音技術的進步，相信語音會在很多場景下得到更好的套用。比如騰不出手的時候控制智慧裝置，比如同機器人的交流等等。

以上