何謂音訊(audio signals)?簡單地說,一般人耳能夠聽到的聲音,就稱為音訊,例如一般的語音和音樂。若要尋求比較嚴謹的定義,那就是基本頻率(fundamental frequency)介於 20 Hz ~ 20 kHz 的訊號,就是音訊。(基本頻率是指在一秒內此訊號所產生的基本週期個數,後續還會有範例。)但要特別注意的是,人耳所能聽到的聲音,會隨著年紀而變,年紀越大,所能聽到的聲音頻率範圍就越窄。例如你可以使用蚊子鈴聲(mosquito ringtone)來做為你的手機鈴聲,由於其基本頻率很高,當上課時你手機響起,只有你和你的同學聽得到,而台上的老師(假設大於50歲)是聽不到的!
相對於其他動物而言,人的聽力是相對薄弱的,很多動物都能夠聽到高頻的訊號,例如狗(所以我們可以使用犬笛來呼叫狗,但是我們自己卻聽不到犬笛的聲音),另外還有一些動物能夠發出高頻的訊號,例如海豚和蝙蝠,並藉著這些訊號尋找獵物或聯絡同伴。
音訊的產生,需要一個震動源來產生空氣的震動,例如:
- 語音:需要聲帶的振動
- 吉他:需要吉他弦的震動
- 笛子:需要由吹嘴產生空氣摩擦及震動
- 關門聲:門板的震動
這個震動源將會帶動空氣的波動,形成空氣的壓力波,一鬆一緊,一路向外傳送。我們的人耳內有耳膜,可以感受到空氣的波動,這些波動牽動內耳神經,最後經由大腦解析,就變成我們聽到的聲音,如下圖。
圖 5.:由音源所形成的壓力波,經由空氣傳播到人的耳膜。 若要將音訊錄製成數位格式的電子檔,我們就必須使用對於空氣波動相當敏感的感測器,將壓力波轉換為電壓訊號,最後將此電壓訊號以數位的方式儲存下來。在這個記錄音訊的過程中(例如使用電腦軟體進行錄音時),通常我們必許指定下列三項參數:
- 取樣率(sample rate):這項參數決定我們在一秒內的取樣點數,通常以 Hz (Hertz) 為單位,取樣率越高,所儲存的音訊品質越好,但所佔用的儲存空間也會越大。一般常見的取樣率如下:
- 8 kHz:每秒鐘取樣 8000 點,一般電話的通話即是使用此取樣率。
- 16 kHz:每秒鐘取樣 16000 點,適用於一般語音辨識的錄音。
- 44.1 kHz:每秒鐘取樣 44100 點,一般音樂 CD 即是採用此取樣率。
- 位元解析度(bit resolution):對於每一個取樣點,我們要使用的位元(bits)數來代表此點。一般常用的位元數是 8 或 16 個位元,位元數越高,音訊品質越好,但是需要的儲存空間也會越大。
- 聲道數(number of channels):同時要用幾個麥克風來錄音,一般是單聲道(mono)或是雙聲道(stereo,又稱為立體聲)。
作業
- 我們在使用電腦軟體進行錄音時,通常必須指定哪三項錄音參數?它們分別代表什麼意義?
- 基本頻率超過 20 kHz 的音訊,稱為超音波(ultrasound),請搜尋網路相關資訊,列出超音波的三個用途。
- 在不同的錄音條件下,請計算音訊檔案所需的儲存空間。
- 設定取樣率為 16 kHz、位元解析度為 16 bits、聲道數為 1,這上述的條件下,錄製一分鐘的音訊,請問此音訊會佔用多少儲存空間?
- 對於一般的CD音樂而言,取樣率為 44.1 kHz、位元解析度為 16 bits、聲道數為 2,在這樣的條件下,一首三分鐘的歌曲,會佔用多少儲存空間?(一般三分鐘的 MP3 歌曲,檔案大小大概是 3~4 MB 左右,由此可知 MP3 的壓縮率大約是 10。)
Audio Signal Processing and Recognition (音訊處理與辨識)