22-1 T禰誘

何謂音訊（audio signals）？簡單地說，一般人耳能夠聽到的聲音，就稱為音訊，例如一般的語音和音樂。若要尋求比較嚴謹的定義，那就是基本頻率（fundamental frequency）介於 20 Hz ~ 20 kHz 的訊號，就是音訊。（基本頻率是指在一秒內此訊號所產生的基本週期個數，後續還會有範例。）但要特別注意的是，人耳所能聽到的聲音，會隨著年紀而變，年紀越大，所能聽到的聲音頻率範圍就越窄。例如你可以使用蚊子鈴聲（mosquito ringtone）來做為你的手機鈴聲，由於其基本頻率很高，當上課時你手機響起，只有你和你的同學聽得到，而台上的老師（假設大於50歲）是聽不到的！

Hint

所以當你和你的阿公阿?講話時，如果他答非所問，請不要生氣，因為：(1) 你總有一天也會變老。(2) 他是真的聽不到高頻音，如子音等，因此「慶城街」會聽成「硬成噎」！

相對於其他動物而言，人的聽力是相對薄弱的，很多動物都能夠聽到高頻的訊號，例如狗（所以我們可以使用犬笛來呼叫狗，但是我們自己卻聽不到犬笛的聲音），另外還有一些動物能夠發出高頻的訊號，例如海豚和蝙蝠，並藉著這些訊號尋找獵物或聯絡同伴。

音訊的產生，需要一個震動源來產生空氣的震動，例如：

語音：需要聲帶的振動
吉他：需要吉他弦的震動
笛子：需要由吹嘴產生空氣摩擦及震動
關門聲：門板的震動

這個震動源將會帶動空氣的波動，形成空氣的壓力波，一鬆一緊，一路向外傳送。我們的人耳內有耳膜，可以感受到空氣的波動，這些波動牽動內耳神經，最後經由大腦解析，就變成我們聽到的聲音，如下圖。

圖 5.：由音源所形成的壓力波，經由空氣傳播到人的耳膜。

若要將音訊錄製成數位格式的電子檔，我們就必須使用對於空氣波動相當敏感的感測器，將壓力波轉換為電壓訊號，最後將此電壓訊號以數位的方式儲存下來。在這個記錄音訊的過程中（例如使用電腦軟體進行錄音時），通常我們必許指定下列三項參數：

取樣率（sample rate）：這項參數決定我們在一秒內的取樣點數，通常以 Hz (Hertz) 為單位，取樣率越高，所儲存的音訊品質越好，但所佔用的儲存空間也會越大。一般常見的取樣率如下：
- 8 kHz：每秒鐘取樣 8000 點，一般電話的通話即是使用此取樣率。
- 16 kHz：每秒鐘取樣 16000 點，適用於一般語音辨識的錄音。
- 44.1 kHz：每秒鐘取樣 44100 點，一般音樂 CD 即是採用此取樣率。
位元解析度（bit resolution）：對於每一個取樣點，我們要使用的位元（bits）數來代表此點。一般常用的位元數是 8 或 16 個位元，位元數越高，音訊品質越好，但是需要的儲存空間也會越大。
聲道數（number of channels）：同時要用幾個麥克風來錄音，一般是單聲道（mono）或是雙聲道（stereo，又稱為立體聲）。

作業

我們在使用電腦軟體進行錄音時，通常必須指定哪三項錄音參數？它們分別代表什麼意義？
基本頻率超過 20 kHz 的音訊，稱為超音波（ultrasound），請搜尋網路相關資訊，列出超音波的三個用途。
在不同的錄音條件下，請計算音訊檔案所需的儲存空間。
1. 設定取樣率為 16 kHz、位元解析度為 16 bits、聲道數為 1，這上述的條件下，錄製一分鐘的音訊，請問此音訊會佔用多少儲存空間？
2. 對於一般的CD音樂而言，取樣率為 44.1 kHz、位元解析度為 16 bits、聲道數為 2，在這樣的條件下，一首三分鐘的歌曲，會佔用多少儲存空間？（一般三分鐘的 MP3 歌曲，檔案大小大概是 3~4 MB 左右，由此可知 MP3 的壓縮率大約是 10。）

Audio Signal Processing and Recognition (音訊處理與辨識)