3-2 Basic Acoustic Features (nヵSx)

[english][all]

(請注意:中文版本並未隨英文版本同步更新!)

當我們在分析聲音時,通常以「短時距分析」(Short-term Analysis)為主,因為音訊在短時間內是相對穩定的。我們通常將聲音先切成音框(Frame),每個音框長度大約在 20 ms 左右,再根據音框內的訊號來進行分析。在一個特定音框內,我們可以觀察到的三個主要聲音特徵可說明如下:

這些特徵可用圖形說明如下:

如果是用人聲來說明,這些語音特徵的物理意義如下:

有關這些語音特徵的抓取和分析,會在後續章節有詳細說明。特別要注意的是,這些特徵都是代表「人耳的感覺」,並沒有一定的數學公式可尋,所以當我們試著在「量化」這些特徵時,只是根據一些數據和經驗來量化,來盡量逼近人耳的感覺,但並不代表這些「量化」後的數據或公式就可以完全代表聲音的特徵。

音訊特徵抽取的基本方式如下:

  1. 將音訊切成一個個音框,音框長度大約是 20~30 ms。音框若太大,就無法抓出音訊隨時間變化的特性;反之,音框若太小,就無法抓出音訊的特性。一般而言,音框必須能夠包含數個音訊的基本週期。(另,音框長度通常是 2 的整數次方,若不是,則在進行「傅立葉轉換」時,需補零至 2 的整數次方,以便使用「快速傅立葉轉換」。)
  2. 若是希望相鄰音框之間的變化不是太大,可以允許音框之間有重疊,重疊部分可以是音框長度的 1/2 到 2/3 不等。(重疊部分越多,對應的計算量也就越大。)
  3. 假設在一個音框內的音訊是穩定的,對此音框求取特徵,如過零率、音量、音高、MFCC 參數、LPC 參數等。
  4. 根據過零率、音量及音高等,進行端點偵測(Endpoint Detection),並保留端點內的特徵資訊,以便進行分析或辨識。

在進行上述分析時,有幾個名詞常用到,說明如下:

Hint
Note that these terminologies are not unified. Some papers use frame step to indicate hop size or frame rate instead. You should be cautious when reading papers with these terms.

舉例而言,如果取樣頻率 fs=16000 且每一個音框所對應的時間是 25 ms,重疊 15 ms,那麼


Audio Signal Processing and Recognition (音訊處理與辨識)