[english][all] (請注意:中文版本並未隨英文版本同步更新!)
Slides for this chapter
「端點偵測」(End-point Detection,簡稱 EPD)的目標是要決定音訊開始和結束的位置,所以又可以稱為 Speech Detection 或是 VAD (Voice Activity Detection)。端點偵測在音訊處理與辨識中,扮演一個重要的角色。
常見的端點偵測方法與相關的特徵參數,可以分成兩大類:
- 時域(Time Domain)的方法:計算量比較小,因此比較容易移植到計算能力較差的微電腦平台。
- 音量:只使用音量來進行端點偵測,是最簡單的方法,但是會對氣音造成誤判。不同的音量計算方式也會造成端點偵測結果的不同,至於是哪一種計算方式比較好,並無定論,需要靠大量的資料來測試得知。
- 音量和過零率:以音量為主,過零率為輔,可以對氣音進行較精密的檢測。
- 頻域(Frequency Domain)的方法:計算量比較大,因此比較難移植到計算能力較差的微電腦平台。
- 頻譜的變異數:有聲音的頻譜變化較規律,變異數較低,可作為判斷端點的基準。
- 頻譜的Entropy:我們也可以使用使用 Entropy 達到類似上述的功能。
錯誤的端點偵測,在語音辨識上會造成兩種效應:
以下各小節將針對這兩類的端點偵測方法來介紹。
- False Rejection:將 Speech 誤認為 Silence/Noise,因而造成音訊辨識率下降
- False Acceptance:將 Silence/Noise 誤認為 Speech,此時音訊辨識率也會下降,但是我們可以在設計辨識器時,前後加上可能的靜音聲學模型,此時辨識率的下降就會比前者來的和緩。
Audio Signal Processing and Recognition (音訊處理與辨識)