早期機器人說話的聲音為什麽都是一聲？

2020-01-01數碼

這事得從機器語音合成說起。

先想一想：怎麽才能讓機器把一篇文章讀出來呢？

如果不仔細想的話，很可能是這麽個思路：比如漢語吧，不同的發音數量也就是漢語輔音-元音的不同組合而已，而且由於漢語的特點，這些組合的數量並不太多；哪怕加上四個聲調，一個個讀一遍也做得到……

那麽，只要把一篇文章的每個字都和它的讀音關聯起來、然後把一個個字音播放出來，問題是不是就解決了呢？

嗯，沒錯，這樣的確能讓機器把文章讀出來。

但是，這樣就使得每個字發聲時間等長（或雖然不等長但每個音播放時間固定）——這就造成一種「一個字一個字往外嘣」的效果，完全不像正常人說話。

事實上，我們人類說話，相互關聯的詞會較為緊湊的說出來；部份字存在「兒化音」問題；因為疑問、憤怒等諸多不同，字句間存在變調問題……

這就使得這種透過「機械播放錄好的語料」的方式生成的語音效果怪異——語速固定，毫無抑揚頓挫。

此外，雖然普通話不同的讀音並不多，但也實在不少了；尤其如英語之類語言，它的詞匯數目動輒幾十上百萬，再加上連讀、重讀之類問題……

因此，機械的錄制然後回放其實是行不通的。

怎麽辦呢？

容易想到，漢字讀音多，但聲母韻母也就那麽幾十個啊；英語詞匯多，音標也就48個……

拼音嘛，只要把基本音素錄下來，然後「拼」起來放，問題不就解決了？

沒錯。電腦語音合成就是這麽做的。

第一步，程式先把文字序列轉換成音韻序列；第二步，把音韻序列轉換成語音波形——於是我們就聽到了聲音。

這個系統效果怎麽樣呢？

嗯……這麽說吧，的確能用。語言學家關於拼音/音素的研究的確沒有白吃幹飯……

但它就是不自然。

為什麽呢？

因為人類並不是機械的、按照固定長度發出每個音素的。

想要自然，我們就不得不先啟動語意理解，合理規劃出不同韻律，合理安排音段特征，處理好諸如音高、音長、音強等等資訊，這才能使得合成語音正確、自然的把一句話朗誦出來。

不過，語音合成是否僅僅把每個音素的波形「拼」起來或者「揉」起來就行了呢？

並不是。這種強行捏合音素序列的語音合成方法雖然足夠「逼真」，但總是帶著一股子濃重的「機器味」。

人們想了很多很多辦法。比如共振峰合成器、波形拼接合成器（比如基音同步疊加PSOLA方法）等等。這些努力使得機器合成語音的可懂度、清晰度達到了很高的水平，但仍然帶有極為濃重的機器味。

這種無法擺脫的「機器味」對映到了影視作品裏，就變成了那種極具特色的、一字一頓、毫無起伏的機器聲。

當然，這種聲音並不是真正的機器合成聲。

隔行如隔山，影視行業怎麽知道「語音合成」究竟遇到了什麽問題呢？他們連為什麽會出現機器味、機器味究竟是什麽都不是很明白。

他們需要的，是一種比較有特色、能夠讓觀眾認同的、「機器人的聲音」——這種聲音當然只能由配音演員說出來、透過一定的處理把它和正常的人聲區分開來。

沒錯，你印象中的、全部都是一聲的機器人合成聲僅存於影視作品——說不定就是用@曹力科的答案類似的方法合成出來的——但真正語音合成搞出來的聲音是一種「有自己特色的機器味」，並不是簡單的「全都是一聲」。

嗯，總之吧，過去語音合成的聲音……它就是怪。而且怎麽捏怎麽改，它都還是怪——只不過不同的技術怪的地方還不太一樣。

再後來，雖然基於HMM（隱馬爾科夫模型）的語音合成已經做的極為自然了，所有人——包括IT業界自己——都還覺得機器合成聲也就那樣：如果你需要發個聲、給使用者提個醒，那麽隨便搞一搞、差不多能聽懂就行；如果你需要更自然一些的聲音……嗯……其實請小一些的地方電台播音員配個音也不花多少錢。

至於什麽大規模的、海量內容的人聲生成……那時候的人壓根就不會覺得這是個需求——註意是壓根就不會考慮，並不是資金技術方面存在障礙。

那麽，這種情況是怎麽結束的呢？

這就不得不說一說宅男們的老婆了——有請初音（此處應有熱烈的掌聲！）

這個甩著大蔥唱歌的小姑娘開啟了一個時代。

初音未來是基於雅馬哈VOCALOID系列語音合成軟件開發而成的虛擬偶像；而VOCALOID又是把HMM做到極致的產物——YAMAHA的變態之處在於，它幾乎把人類發聲的每個細節都做了詳細的建模、給予盡可能自然的處理。

http:// bbs.ivocaloid.com/threa d-126991-1-1.html

VOCALOID - 萌娘百科萬物皆可萌的百科全書

這套軟件真正解決了「自然的人聲合成」問題，它甚至允許合成語音跟著樂譜唱歌。

VOCALOID雖然很強，但之前銷量慘淡——事實上，HMM模型很早就提出來了，VOCALOID也早就上市了。只是因為太過專業以至於沒人敢碰，因此一直默默無聞。

後來，CRYPTON FUTURE MEDIA公司基於VOCALOID系列語音合成軟件，於2007年8月31日，把穿著短裙、拖著兩條蔥綠色馬尾辮的二次元軟萌小蘿莉初音未來帶到了這個世界——並且一直火到了現在。

初音未來「出道」已經 10 年了，一個語音軟件如何成為了一個偶像_百科TA說

當然，並不能說其他語音合成軟件/研究者借鑒/抄襲了VOCALOID系列軟件（雖然想要合成逼真的人聲，它們就脫不開HMM模型）；但是，自初音未來之後，人聲合成領域才得到了全世界的廣泛關註。

其中，初音VOCALOID一周的銷量已經和VOCALOID系列過去一年甚至多年的銷量相當；不僅如此，她還帶動了一個超過100億日元的龐大市場……

很快，豐田、google等巨頭也對初音產生了興趣；甚至LV等一貫保守的奢侈品品牌都主動上門、和初音攀上了關系。

在大量資金、人才的轟炸下，語音合成這個領域自此一飛沖天。

如今，基於深度學習的語音合成能力更強，數據利用率更高，效果優勢更為明顯；語音合成套用也真正走進了千家萬戶——以至於生活在初音時代的我們，已經很難理解當年那些機器味濃厚的合成聲了。