[english][all]

(請注意:中文版本並未隨英文版本同步更新!)

「音色」(Timber)是一個很模糊的名詞,泛指音訊的內容,例如「天書」這兩個字的發音,雖然都是第一聲,因此它們的音高應該是蠻接近的,但是由於音色的不同,我們可以分辨這兩個音。直覺來看,音色的不同,代表基本週期的波形不同,因此我們可以使用基本週期的波形來代表音色。若要從基本週期的波形來直接分析音色,是一件很困難的事。通常我們的作法,是將每一個音框進行頻譜分析(Spectral Analysis),算出一個音框訊號如何可以拆解成在不同頻率的分量,然後才能進行比對或分析。在頻譜分析時,最常用的方法就是「快速傅立葉轉換」(Fast Fourier Transform),簡稱 FFT,這是一個相當實用的方法,可以將在時域(Time Domain)的訊號轉換成在頻域(Frequency Domain)的訊號,並進而知道每個頻率的訊號強度。

若要看看 FFT 的實際展示,可以輸入下列指令:

開啟的 Simulink 系統如下:

當你啟動程式並開始對麥克風說話時,就會出現下列動態的「頻譜圖」(Spectrum),隨時間而呈現急遽的變化:

若將頻譜圖「立」起來,並用不同的顏色代表頻譜圖的高低,就可以得到頻譜對時間所產生的影像,稱為 Spectrogram,如下:

Spectrogram 代表了音色隨時間變化的資料,因此有些厲害的人,可以由 Specgrogram 直接看出語音的內容,這種技術稱為 Specgrogram Reading,有興趣的同學,可以在搜尋引擎上找到很多相關的網頁,也可以試試自己的功力。


Audio Signal Processing and Recognition (音訊處理與辨識)