[english][all]
(請注意：中文版本並未隨英文版本同步更新！)
「音色」（Timber）是一個很模糊的名詞，泛指音訊的內容，例如「天書」這兩個字的發音，雖然都是第一聲，因此它們的音高應該是蠻接近的，但是由於音色的不同，我們可以分辨這兩個音。直覺來看，音色的不同，代表基本週期的波形不同，因此我們可以使用基本週期的波形來代表音色。若要從基本週期的波形來直接分析音色，是一件很困難的事。通常我們的作法，是將每一個音框進行頻譜分析（Spectral Analysis），算出一個音框訊號如何可以拆解成在不同頻率的分量，然後才能進行比對或分析。在頻譜分析時，最常用的方法就是「快速傅立葉轉換」（Fast Fourier Transform），簡稱 FFT，這是一個相當實用的方法，可以將在時域（Time Domain）的訊號轉換成在頻域（Frequency Domain）的訊號，並進而知道每個頻率的訊號強度。
若要看看 FFT 的實際展示，可以輸入下列指令：

dspstfft_nt (MATLAB 5)
dspstfft_win32 (MATLAB 6 and 7)
dspstfft_audio (MATLAB 7.12 or later)

開啟的 Simulink 系統如下：

當你啟動程式並開始對麥克風說話時，就會出現下列動態的「頻譜圖」（Spectrum），隨時間而呈現急遽的變化：

若將頻譜圖「立」起來，並用不同的顏色代表頻譜圖的高低，就可以得到頻譜對時間所產生的影像，稱為 Spectrogram，如下：

Spectrogram 代表了音色隨時間變化的資料，因此有些厲害的人，可以由 Specgrogram 直接看出語音的內容，這種技術稱為 Specgrogram Reading，有興趣的同學，可以在搜尋引擎上找到很多相關的網頁，也可以試試自己的功力。

http://cslu.cse.ogi.edu/tutordemos/SpectrogramReading/spectrogram_reading.html
http://home.cc.umanitoba.ca/~robh/howto.html

Audio Signal Processing and Recognition (音訊處理與辨識)