我總結了幾個不錯的語音辨識的開源計畫
1、DeepSpeech 計畫
計畫地址: https:// github.com/mozilla/Deep Speech
該計畫由 Firefox 瀏覽器的開發組織 Mozilla 團隊開發。它是 100% 的自由開源軟體,其名字暗示使用了 TensorFlow 機器學習框架實作去功能。
換句話說,你可以用它訓練自己的模型獲得更好的效果,甚至可以用它來轉換其它的語言。你也可以輕松的將它整合到自己的 Tensorflow 機器學習計畫中。可惜的是計畫當前預設僅支持英語。
它也支持許多程式語言,例如 Python(3.6)。可以讓你在數秒之內完成工作:
pip3
install
deepspeech
deepspeech
--
model
models
/
output_graph
.
pbmm
--
alphabet
models
/
alphabet
.
txt
--
lm
models
/
lm
.
binary
--
trie
models
/
trie
--
audio
my_audio_file
.
wav
你也可以透過
npm
安裝它:
npm
install
deepspeech
2、DeepSpeecp
計畫地址:https:// github.com/PaddlePaddle /DeepSpeech
中國軟體巨頭百度的研究人員也在開發他們自己的語音文字轉換引擎,叫做「DeepSpeecp」。它是一個端對端的開源引擎,使用「PaddlePaddle」深度學習框架進行英語或漢語的文字轉換。程式碼在 BSD 授權證下釋出。
該引擎可以在你想用的任何模型和任何語言上訓練。模型並未隨程式碼一同釋出。你要像其他軟體那樣自己建立模型。DeepSpeecp 的原始碼由 Python 寫成,如果你使用過就會非常容易上手。
3、ESPNET
工具特點:支持多個語音任務,支持多個ASR端到端系統,當前最活躍的語音開源社群,是第三代端到端ASR系統的典型代表。
連結:GitHub - espnet/espnet: End-to-End Speech Processing Toolkit
4、kaldi
工具特點:基於C++開發,工具豐富,2012-2018年最活躍的開源社群,是第二代神經網路ASR系統的典型代表。
連結:https:// github.com/kaldi-asr/ka ldi
5、wenet
工具特點:基於pytorch,程式碼較為簡潔,並有多個平台的runtime支持。
連結:https:// github.com/wenet-e2e/we net
6、speechbrain
工具特點:該工具純python化,易用性的設計較好。
連結:https:// github.com/speechbrain/ speechbrain
7、ASRT
工具特點:端到端訓練。
連結:https:// github.com/nl8590687/AS RT_SpeechRecognition
ASRT是一個基於深度學習的中文語音辨識系統,采用摺積采用摺積神經網路(CNN)和連線性時序分類(CTC)方法,使用大量中文語音數據集進行訓練,將聲音轉錄為中文拼音,並透過語言模型,將拼音序列轉換為中文文本。具體可查閱其部落格https://www. ailemon.net/
8、阿裏開源的DFSMN
DFSMN語音辨識模型,對比目前業界使用最為廣泛的LSTM模型,訓練速度更快、辨識準確率更高。采用全新DFSMN模型的智慧音響或智慧家居裝置,相比前代技術深度學習訓練速度提到了3倍,語音辨識速度提高了2倍。阿裏巴巴達摩院機器智慧實驗室語音辨識團隊,推出了新一代語音辨識模型——DFSMN,不僅被谷歌等國外巨頭在論文中重點參照,更將語音辨識準確率紀錄提升至96.04%(基於世界最大的免費語音辨識資料庫LibriSpeech)。此外,該團隊宣布開源DFSMN模型,共享這一成果。
計畫地址:https://
github.com/alibaba/Alib
aba-MIT-Speech
這裏補充一篇,作為程式設計師必讀的基本書籍:
成為程式設計師必看的200本書籍
那麽從哪裏找些比較有用的書籍呢
說道這裏呢我不得不提一下我自己的一個開源計畫
當然之前寫了一個程式設計師必出書籍全300本知乎的一個文章,這裏也可以去擼一波看看
除了看書籍之外,個人覺得多去練習才能收獲到學習的東西:
推薦幾個在編程中高實用的計畫:
1、 Spring Boot + Vue + Shiro 實作前後端分離、許可權控制可用於畢設:https:// zhuanlan.zhihu.com/p/38 5484268
2、 SimpleImage是阿裏巴巴的一個Java圖片處理的類別庫,可以實作圖片縮略、浮水印等處理: https:// zhuanlan.zhihu.com/p/38 6423104
3、支持百億級別的 Java 分布式日誌元件EasyLog :https:// zhuanlan.zhihu.com/p/39 2993622
4、 一個很好用的PPT生成工具, reveal.js 是一個開放原始碼HTML表示框架。它使使用Web瀏覽器的任何人都可以免費建立功能齊全且美觀的演示文稿。檢視現場演示:httpss://http://zhuanlan.zhihu.com/p/29
我是程式設計師小於哥
@終端研發部
一個執著於技術的小猿猿,每天專註於技術開發小技巧,職場經驗的分享,我希望我的回答能夠給大家一些幫助哈~