6-1 Introduction to End-Point Detection (I)

[english][all]

(請注意:中文版本並未隨英文版本同步更新!)

Slides for this chapter

「端點偵測」(End-point Detection,簡稱 EPD)的目標是要決定音訊開始和結束的位置,所以又可以稱為 Speech Detection 或是 VAD (Voice Activity Detection)。端點偵測在音訊處理與辨識中,扮演一個重要的角色。

常見的端點偵測方法與相關的特徵參數,可以分成兩大類:

  1. 時域(Time Domain)的方法:計算量比較小,因此比較容易移植到計算能力較差的微電腦平台。
    1. 音量:只使用音量來進行端點偵測,是最簡單的方法,但是會對氣音造成誤判。不同的音量計算方式也會造成端點偵測結果的不同,至於是哪一種計算方式比較好,並無定論,需要靠大量的資料來測試得知。
    2. 音量和過零率:以音量為主,過零率為輔,可以對氣音進行較精密的檢測。
  2. 頻域(Frequency Domain)的方法:計算量比較大,因此比較難移植到計算能力較差的微電腦平台。
    1. 頻譜的變異數:有聲音的頻譜變化較規律,變異數較低,可作為判斷端點的基準。
    2. 頻譜的Entropy:我們也可以使用使用 Entropy 達到類似上述的功能。

Hint
簡單地說,若只是對聲音波形做一些較簡單的運算,就是屬於時域的方法。另一方面,凡是要用到傅立葉轉換(Fourier Transform)來產生聲音的頻譜,就是屬於頻譜的方法。這種分法常被用來對音訊處的方法進行分類,但有時候有一些模糊地帶。有關於頻譜以及傅立葉轉換,會在後續的章節說明。

錯誤的端點偵測,在語音辨識上會造成兩種效應:

以下各小節將針對這兩類的端點偵測方法來介紹。
Audio Signal Processing and Recognition (音訊處理與辨識)