前一章所介紹的 DTW,大部分是用於語者相關(Speaker Dependent)的語音辨識,這一類的應用大部分需要使用者自行錄音,然後再以自己的聲音來比對之前錄好的語音資料,雖然在概念上很簡單,但是此方法比較適合同一位語者的聲音來進行比較,因此應用範圍比較狹隘,譬如目前手機 Name Dialing 等等。但是如果我們要做到語者無關(Speaker Independent)的語音辨識,最常見的方法,就是「隱藏式馬可夫模型」(Hidden Markov Models),簡稱 HMM。HMM 是根基於統計的機率模型,特別適用於具有大量訓練資料的語音辨識系統,若以機率模型的類別來分,HMM 又可以分成兩大類:
- Discrete HMM:簡稱 DHMM,其中機率的算法完全是依靠查表法,而表格的取得則是靠大量語音資料的統計而得。
- Continuous HMM:簡稱 CHMM,其中機率的算法是根據連續的機率密度函數,例如 Gaussian Mixture Models(GMM)等等。這些機率密度函數都是靠大量的語音資料來建模(Modeling)所得,所用的方法大部分是 Maximum Likelihood Estimate(MLE)。
Data Clustering and Pattern Recognition (資料分群與樣式辨認)