[english][all] (請注意:中文版本並未隨英文版本同步更新!)
資料分群(data clustering)或是分群演算法(clustering algorithms)是一種將資料分類成群的方法,其主要的目的乃在於找出資料中較相似的幾個群聚(clusters),並找出各個群聚的代表點,稱為中心點(centroids)或是原型(prototypes)。使用這些中心點來代表原先大量的資料點,就可以達到兩個基本目標:
- 資料目視分析
- 資料壓縮
- 雜訊降低
- 降低計算量
一般而言,分群法可以大致歸為兩大類:
- 階層式分群法(hierarchical clustering):群數(number of clusters)可以由大變小(稱為 divisive hierarchical clustering),或是由小變大(稱為 agglomerative hierarchical clustering),來進群聚的合併或分裂,最後再選取最佳的群數。
- 分割式分群法(partitional clustering):先指定群數後,再用一套疊代的數學運算法,找出最佳的分群方式以及相關的群中心。
所有的分群法都有相似的流程,大略可歸納為下列幾點:
- 收集資料。
- 使用某種方法進行分群。
- 測試分群結果。
- 檢測分群結果,若合格則停止。否則則回到步驟二,再一次進行分群。
向量量化(vector quantization,簡稱 VQ)可以說是資料分群的延伸,只不過是向量量化常被用在影像和語音的壓縮,應用層面比較不相同,但是其優化目標類似分割式分群法,而群數增加過程則類似於階層式分群法。
Data Clustering and Pattern Recognition (資料分群與樣式辨認)