- (**) 中文數字辨識之一: 請仿照 goSyl13.bat 或是 goSyl13.m,使用2003年的數字錄音為訓練資料,2006年的數字錄音為測試資料,求取相關的 inside-test 和 outside-test 辨識率。事實上,主要的工作都是在準備相關檔案,因此你的工作就是要寫一個 MATLAB 程式 goGenFile4htk.m,能夠從指定的 wav 檔案資料夾,抓取 wav 檔案資料,並產生下列檔案,以供 HTK 訓練:
最後再進行訓練與辨識率測試。(建議作法:請先產生上述四個檔案,再修改 goSyl13.bat 或是 goSyl13.m,將即時產生上述檔案之程式碼註解掉,然後執行程式,就可以產生使用上述四個新檔案的結果。)。
- 產生 digitSyl.mlf 檔案。
- 產生 wav2fea.scp 檔案。
- 產生 trainFea.scp 及 testFea.scp 檔案。
請問使用 13, 26, 39 維的 MFCC,inside-test 和 outside-test 的辨識率各是多少?請將 Confusion Matrix 展示給助教看。我得到的結果是:
請注意:
- 以 goSyl13.bat 為基礎,新資料的結果是:inside test 86.38%, outside test 79.51%。
- 以 goSyl26.bat 為基礎,新資料的結果是:inside test 92.07%, outside test 87.25%。
- 以 goSyl39.bat 為基礎,新資料的結果是:inside test 95.17%, outside test 89.53%。
提示:可以使用 recursiveFileList.m 來回傳一個目錄下所有的 wav 檔案。
- 特徵檔案的檔名不可使用中文,因為 HTK 不支援。
- 每一個語音特徵檔案的檔名,必須是獨一無二的。因此你必須先將中文目錄轉成數字,再加上原來的檔名,就可以用於特徵檔案的檔名,例如「912508鄒銘軒\3a_7436_16017.wav ===> 00002-3a_7436_16017.fea」。
- HTK 會分辨大小寫,所以檔名和相關檔案的紀錄必須一致。
- 相關錄音資料會在課堂上由助教提供。(本次 ftp 位置是 ftp://AP2006:ap2006@140.114.88.80:3524。)
- (***) 中文數字辨識之二: 請重複上題,但嘗試各種方法,以求得 outside-test 及 inside-test 平均辨識率之最佳值。請將對應於最佳值的各種相關辨識參數(語音特徵維度、聲學模型、mixture個數、狀態個數...)記錄於 method.txt,並說明你用了什麼方法。請將 method.txt、你最後產生的 macro 檔案(請改名為 digit.mac)、以及跑辨識率所需的相關資料檔案,一併上傳給助教,讓助教來進行測試,並評比每一個人的辨識率。(本次 ftp 位置是 ftp://AP2006:ap2006@140.114.88.80:3524。)
Audio Signal Processing and Recognition (音訊處理與辨識)