[english][all] (請注意:中文版本並未隨英文版本同步更新!)
Iris 資料集可說是在樣式辨認研究中,最常被引用到的資料集,此資料集包含鳶尾花的資料,的特性如下:
有關於使用 iris 資料集的論文,多到不勝枚舉,以下是幾個代表作:
- 特徵:共四種,都是數值,沒有未知量:
- sepal length in cm
- sepal width in cm
- petal length in cm
- petal width in cm
- 類別:共三類,包含 Iris Setosa, Iris Versicolour, Iris Virginica
- 資料筆數:150筆
- 類別分佈:各50筆
- Fisher,R.A. "The use of multiple measurements in taxonomic problems" Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions to Mathematical Statistics" (John Wiley, NY, 1950).
- Duda,R.O., & Hart,P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. See page 218.
- Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments". IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71.
- Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule". IEEE Transactions on Information Theory, May 1972, 431-433.
在這三類資料中,有一類 Iris Setosa 是比較容易分辨,而另外兩類則是有部分重疊。
我們可以計算每一個類別的資料量,如下:
我們可以計算每一個類別的特徵分布圖,如下:
我們可以進行類別對單一特徵的作圖,如下:
我們也可以將資料投影到二度空間,來觀察資料的分佈,如下:
我們也可以將資料投影到三度空間,來觀察資料的分佈,如下:
基本上,人眼的觀察僅限於二度空間和三度空間,若要在四度空間中觀察,可以將第四維度想像成時間,因此四度空間的資料散佈圖,就是三度空間資料散佈圖隨時間而變化的動畫。
Data Clustering and Pattern Recognition (資料分群與樣式辨認)