17-1 HTK Introduction (HTK 簡)

HTK 是 Hidden Markov Model Toolkit 的簡稱,這是一套用於語音訓練與辨識的免費軟體,相關詳細說明,可見下列網址:
http://htk.eng.cam.ac.uk/
HTK 最早是由英國劍橋大學工程系(CUED, Cambridge University Engineering Department)的機器智能實驗室(Machine Intelligence Lab)所開發的軟體,在 1999 年,微軟買下擁有此軟體的 Entropic 公司,並在 2000 年將 HTK 定位為免費軟體,以便作為語音辨識的共同平台,來提升語音辨識等相關技術。因此目前我們可以直接由劍橋大學的網站下載所有 HTK 的原始碼及說明書。

語音辨識牽涉到相當高深的數學,相關程式碼也不容易撰寫,進入門檻很高,複雜度不易掌控。但自從 HTK 從 2000 年變成原始碼公開的免費軟體後,進入門檻大幅降低,快速提昇了語音技術的發展,目前國內外有關於語音技術的實驗和開發,大部分都是以 HTK 為主流。因此若要進行語音技術的研究,HTK 是一個不可或缺的工具。

本章將以幾個範例來說明 HTK 的使用,這些範例只是入門,讓各位讀者可以瞭解 HTK 的功能。若要掌握 HTK 來進行大量語料的訓練和測試,還是要熟讀 HTK 的手冊,並對語音辨識理論有紮實的基礎,才能夠事半功倍。


Audio Signal Processing and Recognition (音訊處理與辨識)