[english][all] (請注意:中文版本並未隨英文版本同步更新!)
Slides
在本書以下的介紹中,將會引用到幾組資料集(Data Set),以便介紹 DC & PR 的概念,同時也用這些現實世界的資料集來檢測先關演算法的效能。本章所介紹的資料集包含
事實上,這些資料集都是來自於 UCI Machine Learning Repository,網址是
- Iris 資料集
- Wine 資料集
- Abalone 資料集
http://www.ics.uci.edu/~mlearn/MLRepository.html 此網站稱為「UCI Machine Learning Repository」,是來自於美國加州大學爾灣分校(University of California at Irvine)的資訊電腦學院(Donald Bren School of Information and Computer Science),這個網站收集了各式各樣的資料,並加以整理說明,以便各個研究學者可以使用各種樣式辨認或是機器學習的方法,來對這些資料進行分類,並比較所得的結果。為了便於 MATLAB 程式碼的設計,本書將一個資料集用一個結構變數來表示(通常變數名稱是 DS,代表 data set),說明如下:
我們寫了一個函式 prData.m,來傳回常用的這三個資料集。例如,若要讀入常用的 Iris 資料集,我們可以輸入如下:
- DS: 用來儲存資料集的結構變數
- DS.input: 資料集的輸入部分,或稱為此資料集的特徵(Features)。
- DS.output: 資料集的輸出部分,通常也是我們要預測的數值或是類別。
- DS.dataName: 一個字串,代表此資料集的名稱。
- DS.inputName: 一個存放字串的異值陣列,代表此資料集每一個輸入的名稱
- DS.outputName: 一個存放字串的異值陣列,代表此資料集的所有可能類別的名稱
從上述範例可得知:
根據所給的資料集,我們也準備了幾個函式來進行資料的簡單分析與呈現,列表如下:
- DS.dataName 是 iris,代表此資料集的名稱。
- DS.inputName 含有四個字串,分別代表四個輸入變數(或是特徵)的名稱。
- DS.input 代表輸入部分,維度是 4x150,每一個直行代表一筆資料,因此本範例共有 150 筆資料,每一筆資料的輸入部分的維度是 4。
- DS.output 代表每一筆資料的類別,維度是 1x150,共有三種類別,分別使用 1, 2, 3 來代表。
有關上述函式的使用,以及常用資料集的說明,請見本章後續相關小節。
- classDataCount(DS):計算每一個類別的資料量。
- dsProjPlot1(DS):將資料投影到一度空間,來觀察類別對特徵的分佈。
- dsProjPlot2(DS):將資料投影到二度空間,來觀察類別對特徵的分佈。
- dsProjPlot3(DS):將資料投影到三度空間,來觀察類別對特徵的分佈。
- dsFeatureVsIndexPlot(DS):進行特徵對資料索引的作圖。
Data Clustering and Pattern Recognition (資料分群與樣式辨認)![]()