當前位置: 華文問答 > 數碼

未來語音技術或者語音智能助手的發展方向是什麽?

2013-06-06數碼

首先必須要聲明一下啊,作為一名語音技術的研究人員,顯然非常不能接受有童鞋說的十年之內語音技術只能用於輸入法的說法,這不是要砸我飯碗麽……好了好了,言歸正傳。

細看一下,題主似乎問了兩個有些區別的方向,一個是語音技術,另一個是語音助手。顯然, 語音技術只是語音助手的入口和出口(語音辨識和語音合成),而語音助手只是語音技術的某一具體套用,這兩者是不相同的

對於語音技術,可能大部份外人的理解還僅僅局限在語音辨識上。事實上,當我給別人說起自己專業的時候,都是用「語音辨識」(尷尬ing)。其實,語音技術還包括非常多實用的方向,比如說話人辨識、語種辨識、語音合成、音色轉換、語音增強等等。

語音技術能做什麽?想象一下,當你回到家說一句「芝麻開門,我是xxx」,門就為你開啟;你也可以對家裏的電器說話,而它們(他們?)只接受你這個主人的控制,是不是有種真的當家做主人的感覺?而借助於語種辨識,不管你說的是漢語還是英語乃至阿拉伯語,你的機器都能準確地完成你交付的任務;至於音色轉換……當你想念一個美女或者帥哥的時候,你可以……咳咳……


圖1 幾種典型的語音處理技術

就語音技術而言,未來的發展方向是非常多樣的。舉個栗子,許多互聯網公司都在研究怎麽利用說話人辨識來自動進行身份驗證,比如網銀付款時的輔助認證、金融公司的反欺詐黑名單,同時避免某些心懷不軌的人用錄音等方法冒充身份。所以你單看說話人辨識,發展方向也是多方面的。有人可能覺得這個場景似乎科幻了,但是實際上這些技術裏實用是一步之遙,像阿裏等企業已經在嘗試相關技術了。顯然,單純談輸入法,也太小瞧我們大語音了吧。(對,我就是這麽不服氣)

不得不說,語音辨識是現在最為耀眼、大家生活中接觸最多的語音技術。近些年來,語音辨識技術突飛猛進(參見為什麽 Deep Learning 最先在語音辨識和影像處理領域取得突破? - 科研君的回答為什麽 Deep Learning 最先在語音辨識和影像處理領域取得突破?),自然地受到了廣大公眾的極大關註。畢竟,語音辨識的進步代表著機器的聽力發展,是人工智能的重要一步。回過頭看語音助手,也一定程度上搭上了語音辨識的順風車吧?

再來聊聊語音助手。其實我感覺,「語音助手」這個詞還是有點過於狹義。如果我們仔細想想,所謂的「語音」,不過是作為人機互動的一種手段,「助手」更重要的是能幫你完成你想要完成的工作。假設你有一個聾啞人秘書,你每次都需要把要他做的工作寫在一張紙上,而他則能非常完美地將你考慮到的、沒考慮到的細節一絲不茍地完成,你能說他不是一個好秘書嗎?(懶癌患者表示不是……)

當然啦,我們之所以要一個助手就是為了更加輕松的生活,而這種輕松自然是要求輕松到底、解放雙手的。懶是人類進步的原動力嘛。所以,要想最大限度地發揮智能助手的潛能,語音接入終究是必不可少的。

作為語音辨識、自然語音處理最完美的結合,我充分相信未來的語音助手有無法估量的廣闊前景。 這肯定不是我學科自信心膨脹啦,而是一點小小的預測。當然,這預測也僅是我個人的預測,真正的世界中還需要面對無數的困難與挑戰。

現狀


先來看看目前最為著名的幾個語音助手。


1. Siri

自然,Siri因為是第一款進入公眾視野的軟件,具有最高的知名度;


2. Google Now

谷歌的語音接入服務;


3. Cortana

Cortana(小娜)我使用了一年,留下了極好的印象,以至於一直流連於wp平台(絕對是真愛)。順便一提,小娜和小冰是微軟分別主打語音辨識和自然語音理解的兩大平台,感覺有點像我上面談到的「語音」和「助手」的概念;


4. Echo

Echo準確來說是一款亞馬遜的語音互動硬件平台,在國外接入了許多服務,由於采用了麥克風陣列,語音辨識正確率也得到了保證;


5. VIV、出門問問……

而VIV是上個月剛剛釋出的系統,也是我感覺最符合未來語音助手發展方向的作品。出門問問則是中文口語對話系統的優秀代表,口袋有米的同學可以買個他們的ticwatch試試。


除了這些知名系統之外,許多互聯網公司(如淘寶)也都有自己的「小助手」。

那麽問題來了:既然助手這麽多,可為什麽日常生活中我們沒用起來的樣子呢?答案你肯定知道,那就是「不夠好用」啊。

舉幾個我遇到過的場景:讓Siri發個短訊,說了半分鐘,它說沒聽清,要我再說一次,我上次說得很累懂不懂;讓Cortana幫我查一下菜譜,它給我彈出來搜尋頁面,看得我眼花繚亂,我還等著燒菜呢;想搜尋一下路線,說完地址它告訴我沒有安裝相應的套用,請先下載……各種累覺不愛。

不可否認,語音助手的可用性比幾年前已經有了極大的提高,但是在很多時候,你仍然會被他的too young too simple傷害到。也正是這些不夠好用,使得許多語音助手停留在被調戲的層面上。你說,誰會調戲現實中的助手呢?

語音助手的發展方向?


不知道各位童鞋同不同意上面說到的那些問題和缺點。不管怎麽樣,你肯定也遇到過類似的困擾,久而久之就忘記了手機上還有一個語音助手的存在。而未來的發展方向,其實想來很簡單,就是如何解決語音辨識、語意理解、操作執行等存在的問題。

從技術細節角度看,我們希望有更好的語音辨識效能,特別是在雜訊環境下魯棒的語音辨識效能,別一句話聽不懂讓我說十遍;我們希望自然語音理解能做得更加完善,從我隨意的口語中分析出我真正的需求,不要總是說「倫家聽不懂啦,能不能換一句」,說一次是賣萌,說十次我就當你是傻了。

從實際工程套用角度看,我覺得有兩個急切的需求, 一個是可穿戴器材的互動;另一個是通用的應用程式入口

可穿戴器材:


可穿戴器材由於體積等原因的限制,僅能擁有非常局限的輸入輸出器材。比如智能手錶,雖然最新的Android Wear已經支持了鍵盤輸入,而看了下圖。。。為什麽我有種揪心的感覺……

圖2 在智能手錶上用螢幕錄入(圖片來自Engadget)

再比如VR、AR、MR、XXXR遍地蔓延的今天,你帶這個頭盔,怎麽輸入呢?貌似各個廠家都在推出控制手柄,而遇到網址等需要一個字母字母輸入的情況就嘿嘿嘿了。顯然,在這種套用場景下,內建一個語音助手勢必是最好的互動方式。而針對可穿戴器材,語音助手可以是高度客製化的,比如手環負責手環的問題,手表負責手表的問題、VR眼鏡負責VR眼鏡的問題。並不需要多麽復雜的語法分析等技術。當然,如果你想讓你的手表回答所有問題,幫你做所有手機能做的事,那麽就需要看看下一個方向了。

通用應用程式入口:


簡單點說,就是現在VIV正在幹或者說想幹的事情。如果你不知道什麽是VIV,我先摘一篇報道Siri之父再出山,Viv想要「吞並」整個互聯網。一句話來概括,VIV就是希望透過一個語音助手,解決所有現在你需要用APP去解決的問題。

圖3 智能助手VIV(圖片來自Engadget)

試想一個現在的場景:比如你要定酒店,你可能開啟攜程搜尋一下,決定一個比較好的航班;再開啟去哪兒搜一下,對比一下攜程;如果去國外,我可能還會開啟Booking,再和攜程、去哪兒對比一下。如果要定外賣,分別開啟餓了麽、美團、百度;要買東西,依次開啟淘寶、京東,貨比三家……且不論做不同的工作需要不同的APP,就連做同一件事都可能需要瀏覽一眾的APP。VIV的終極目標是去APP化,只需要你一句話,就自動幫你找到網絡上最好最適合你的選項,所有APP都不需要了。你說這樣的助手你用不用?

當然,這只是一個最美好的圖景,你首先就要問:作為一家互聯網企業,誰能放棄入口這麽重要的東西呢?就像這篇報道淘寶在下一個十年還是不是電商領域的王者?,讓出自己的資源,那豈不是自殺麽?而VIV這樣的助手是想搶各位大佬的飯碗嗎?

不得不承認,這個難題需要整個行業共同努力去解決(是否真的能解決也是打上一個問號)。因此,在語音助手上,相比技術上的進步,行業生態環境才是真正的阻礙。就像下面有人說的,如果智能語音一旦和商業服務做到精準對接,勢必是殺手級的。畢竟,我們用語音助手是想方便地辦事,不是和他胡侃海聊瞎調戲的嘛。

總結一下,我心中語音助手的未來就在滿足可穿戴器材的需求和提供ubiquitous(無所不在)的服務之間。(除此之外,智能電話客服也是一個類似的套用場景,不知道和你們說的助手是不是一回事了。)

非常喜歡喬布斯的一句話:「至繁歸於至簡」。手機硬件是這樣,想必語音助手的未來也是這樣吧。為了達到至簡,還有很長的路要走。一個擁有所有APP功能的平台,想想還有點小激動呢。真心希望語音助手不要成為「21世紀的生物」(學生物的朋友們,真的沒有黑你們)。



【「科研君」公眾號初衷始終是希望聚集各專業一線科研人員和工作者,在進行科學研究的同時也作為知識的傳播者,利用自己的專業知識解釋和普及生活中的 一些現象和原理,展現科學有趣生動的一面。該公眾號由清華大學一群在校博士生發起,目前參與的作者人數有10人,但我們感覺這遠遠不能覆蓋所以想科普的領域,並且由於空閑時間有限,導致我們只能每周釋出一篇文章。我們期待更多的戰友加入,認識更多誌同道合的人,每個人都是科研君,每個人都是知識的傳播者。我們期待大家的參與,想加入我們,進QQ群吧~:108141238】


【非常高興看到大家喜歡並贊同我們的回答。應許多知友的建議,最近我們開通了同名公眾號: PhDer ,也會定期更新我們的文章,如果您不想錯過我們的每篇回答,歡迎掃碼關註~ 】


http:// weixin.qq.com/r/5zsuNoH EZdwarcVV9271 (二維碼自動辨識)