[english][all]

(請注意:中文版本並未隨英文版本同步更新!)

Iris 資料集可說是在樣式辨認研究中,最常被引用到的資料集,此資料集包含鳶尾花的資料,的特性如下:

有關於使用 iris 資料集的論文,多到不勝枚舉,以下是幾個代表作:
  1. Fisher,R.A. "The use of multiple measurements in taxonomic problems" Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions to Mathematical Statistics" (John Wiley, NY, 1950).
  2. Duda,R.O., & Hart,P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. See page 218.
  3. Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments". IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71.
  4. Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule". IEEE Transactions on Information Theory, May 1972, 431-433.

在這三類資料中,有一類 Iris Setosa 是比較容易分辨,而另外兩類則是有部分重疊。

我們可以計算每一個類別的資料量,如下:

Example 1: irisClassDataCount01.mds=prData('iris'); [classSize, classLabel]=dsClassSize(ds, 1); 4 features 150 instances 3 classes

我們可以計算每一個類別的特徵分布圖,如下:

Example 2: irisClassDist01.mds=prData('iris'); dsDistPlot(ds);

我們可以進行類別對單一特徵的作圖,如下:

Example 3: irisProjPlot1.mds = prData('iris'); dsProjPlot1(ds);

我們也可以將資料投影到二度空間,來觀察資料的分佈,如下:

Example 5: irisProjPlot2.mds = prData('iris'); dsProjPlot2(ds);

Example 6: irisPlot2dWithAnnotation.mds=prData('iris'); ds.input=ds.input(3:4, :); for i=1:length(ds.output) ds.annotation{i}=sprintf('Data index=%d\nPosition=%s\nClass=%s', i, mat2str(ds.input(:,i)), ds.outputName{ds.output(i)}); end opt.showAnnotation=1; opt.showLegend=1; dsScatterPlot(ds, opt);

Example 7: irisPlot2dfeaCombine.mds=prData('iris'); ds.input=[ds.input(1,:).*ds.input(2,:); ds.input(3,:).*ds.input(4,:)]; ds.inputName=''; ds.inputName{1}='Area of sepal'; ds.inputName{2}='Area of petal'; dsScatterPlot(ds);

我們也可以將資料投影到三度空間,來觀察資料的分佈,如下:

Example 8: irisProjPlot3.mds = prData('iris'); dsProjPlot3(ds);

基本上,人眼的觀察僅限於二度空間和三度空間,若要在四度空間中觀察,可以將第四維度想像成時間,因此四度空間的資料散佈圖,就是三度空間資料散佈圖隨時間而變化的動畫。


Data Clustering and Pattern Recognition (資料分群與樣式辨認)