2-1 Intro. to Datasets

[english][all]

(請注意:中文版本並未隨英文版本同步更新!)

Slides

在本書以下的介紹中,將會引用到幾組資料集(Data Set),以便介紹 DC & PR 的概念,同時也用這些現實世界的資料集來檢測先關演算法的效能。本章所介紹的資料集包含

事實上,這些資料集都是來自於 UCI Machine Learning Repository,網址是
http://www.ics.uci.edu/~mlearn/MLRepository.html
此網站稱為「UCI Machine Learning Repository」,是來自於美國加州大學爾灣分校(University of California at Irvine)的資訊電腦學院(Donald Bren School of Information and Computer Science),這個網站收集了各式各樣的資料,並加以整理說明,以便各個研究學者可以使用各種樣式辨認或是機器學習的方法,來對這些資料進行分類,並比較所得的結果。

為了便於 MATLAB 程式碼的設計,本書將一個資料集用一個結構變數來表示(通常變數名稱是 DS,代表 data set),說明如下:

我們寫了一個函式 prData.m,來傳回常用的這三個資料集。例如,若要讀入常用的 Iris 資料集,我們可以輸入如下:

Example 1: irisDataSet01.mDS = prData('iris') DS = dataName: 'iris' inputName: {'sepal length' 'sepal width' 'petal length' 'petal width'} outputName: {'Setosa' 'Versicolour' 'Virginica'} input: [4x150 double] output: [1x150 double]

從上述範例可得知:

  1. DS.dataName 是 iris,代表此資料集的名稱。
  2. DS.inputName 含有四個字串,分別代表四個輸入變數(或是特徵)的名稱。
  3. DS.input 代表輸入部分,維度是 4x150,每一個直行代表一筆資料,因此本範例共有 150 筆資料,每一筆資料的輸入部分的維度是 4。
  4. DS.output 代表每一筆資料的類別,維度是 1x150,共有三種類別,分別使用 1, 2, 3 來代表。
根據所給的資料集,我們也準備了幾個函式來進行資料的簡單分析與呈現,列表如下: 有關上述函式的使用,以及常用資料集的說明,請見本章後續相關小節。
Data Clustering and Pattern Recognition (資料分群與樣式辨認)