當前位置: 華文問答 > 數位

明明可以語音輸入,為什麽大家還會發語音訊息?

2017-05-08數位

從2個方面來回答這個問題:

1、語音中包含的資訊量要遠遠多於文本。

從內容上來講,語音訊息和文本訊息包含了相同的語言學內容。除此之外,語音訊息還包含了以下的資訊,這些資訊都是文本所不具有的:


a)語音訊息包含說話人資訊。

從文本上看並不能確定訊息的發送者是就是手機的擁有人。例如盜用帳號進行詐騙,從字面上我們難以確認是否是自己的熟人所發。當然信件可以透過字型來進行判斷寫字人,這是字跡鑒定,這裏不做過多討論。

透過語音我們是可以判斷出對方是否是我們的熟人。這個技術的學名叫做聲紋認證(Speaker recognition),其依據就是人的聲音和指紋一樣具有可辨別行。錄音作為呈堂證據也是這個原理。聲紋技術在人工智慧中也有提現,比如大家都說同樣的一句話「我想聽歌」,智慧系統推薦出的歌曲卻不相同。其實作原理就是利用聲紋技術,辨識出不同的說話人,然後依據個人的喜好,推薦不同的歌曲。


b)語音訊息包含情感。

文字可以包含情感,透過文字表達喜怒哀樂很常見。但是相同的文字用不同的語氣讀出來表達的意義可能完全不同。前段時間關於華東師範大學中文系2012屆畢業生的一篇題為【網路會話中「呵呵」的功能研究】的論文引起熱議想必大家都還有印象。輕聲細語的說出來和粗獷的說出來顯然是不能相提並論的。

試看下面一段話:

「。·ˇ‸ˇ·。)哼!都怪你們 (`ȏ′) 也不哄哄人家(〃′o`)人家超想哭的,捶你胸口,大壞蛋!!!( ̄^ ̄)ゞ咩QAQ 捶你胸口 你好討厭!(=゚ω゚)ノ要抱抱嚶嚶嚶哼,人家拿小拳拳捶你胸口!!!(。· ︿·̀。)大壞蛋,打死你(つд⊂)」

光從內容你來看你可能快要被感動,可真正說出來就未必了。可以自行搜尋「大叔版小拳拳」。


c)語音訊息包含人的健康狀況資訊。

語音是透過聲帶振動,然後經過口腔、鼻腔甚至胸腔和額的共鳴最終發聲。不同的發聲技巧會形成不同的音色,進而形成不同的唱腔。每個人正常講話的方式通常是固定的,音色也固定,從而具有可鑒別性。如果生病導致鼻子堵塞或是嗓子腫脹,都會影響音色。因此關心你的人通常能夠透過你的聲音判斷你是否健康。


以上這些都是語音訊息中所包含但文本訊息中不具有的資訊。


2、語音辨識還沒到準確令人滿意的程度。

目前語音辨識的水平看似已經不錯,手機輸入發的準確率已經蠻高了。但這些都是有前提條件,那就是「近講、安靜環境」。如果你走在嘈雜的馬路上,或是在喧鬧的集市中,效能就未必如你所想的那麽好了。其實從另一個方面來講,如果語音辨識真的如此好的話或者你只關心說話內容時,那麽完全可以在微信中辨識成文字檢視內容。顯然結果並不總能讓人滿意。當然各家語音辨識效能也有差距,這裏我們暫且不論。

關於語音辨識的進展請移步這裏:https://www. zhihu.com/question/4682 9056


3、語音技術的未來

其實說了這麽多,最大的限制還是語音技術。這裏的語音技術包括語音辨識,聲紋認證,情感分析等等。所以大多數場景下我們更習慣於在手機上點選操作,而不是用語音來控制裝置。或者控制裝置的時候,更傾向於發送一條文本指令而不是一條語音指令。


技術的進步改變我們的生活方式這一點是毋庸置疑的。隨著語音技術的進步,相信語音會在很多場景下得到更好的套用。比如騰不出手的時候控制智慧裝置,比如同機器人的交流等等。


以上