3-1 Introduction (蝪∩?)

[english][all]
(請注意：中文版本並未隨英文版本同步更新！)
資料分群（data clustering）或是分群演算法（clustering algorithms）是一種將資料分類成群的方法，其主要的目的乃在於找出資料中較相似的幾個群聚（clusters），並找出各個群聚的代表點，稱為中心點（centroids）或是原型（prototypes）。使用這些中心點來代表原先大量的資料點，就可以達到兩個基本目標：

資料目視分析
資料壓縮
雜訊降低
降低計算量

一般而言，分群法可以大致歸為兩大類：

階層式分群法（hierarchical clustering）：群數（number of clusters）可以由大變小（稱為 divisive hierarchical clustering），或是由小變大（稱為 agglomerative hierarchical clustering），來進群聚的合併或分裂，最後再選取最佳的群數。
分割式分群法（partitional clustering）：先指定群數後，再用一套疊代的數學運算法，找出最佳的分群方式以及相關的群中心。

所有的分群法都有相似的流程，大略可歸納為下列幾點：

收集資料。
使用某種方法進行分群。
測試分群結果。
檢測分群結果，若合格則停止。否則則回到步驟二，再一次進行分群。

向量量化（vector quantization，簡稱 VQ）可以說是資料分群的延伸，只不過是向量量化常被用在影像和語音的壓縮，應用層面比較不相同，但是其優化目標類似分割式分群法，而群數增加過程則類似於階層式分群法。
Data Clustering and Pattern Recognition (資料分群與樣式辨認)