english version (請注意:中文版本並未隨英文版本同步更新!)特徵粹取(feature extraction)是特徵選取(feature selection)的延伸,簡單地說,我們希望將資料群由高維度的空間中投影到低維度的空間,因此,我們必須找出一組基底向量(base)來進行線性座標轉換,使得轉換後的座標,能夠符合某一些特性。
我們可以將特徵粹取分成「包含類別資訊」和「不包含類別資訊」兩大類。包含類別資訊指的是我們已經知道哪些資料分別歸屬於哪一類;而不包含類別資訊的特徵粹取則適用於我們不知道手上的資料點分別該歸屬於哪一類,甚至連該劃分成幾類都不知道的情況。對於這兩大類資料,可以分述如下:
我們將在後續小節說明 PCA 和 LDA 的細節。
- 對於「不包含類別資訊」的資料,我們通常使用「主要分量分析」(principal component analysis),簡稱 PCA。
- 對於「包含類別資訊」的資料,我們通常使用的方法是「線性識別分析」(linear discriminant analysis),簡稱 LDA。
Data Clustering and Pattern Recognition (資料分群與樣式辨認)