3-1 Introduction (簡)

[english][all]

(請注意:中文版本並未隨英文版本同步更新!)

資料分群(data clustering)或是分群演算法(clustering algorithms)是一種將資料分類成群的方法,其主要的目的乃在於找出資料中較相似的幾個群聚(clusters),並找出各個群聚的代表點,稱為中心點(centroids)或是原型(prototypes)。使用這些中心點來代表原先大量的資料點,就可以達到兩個基本目標:

一般而言,分群法可以大致歸為兩大類:

所有的分群法都有相似的流程,大略可歸納為下列幾點:

  1. 收集資料。
  2. 使用某種方法進行分群。
  3. 測試分群結果。
  4. 檢測分群結果,若合格則停止。否則則回到步驟二,再一次進行分群。

向量量化(vector quantization,簡稱 VQ)可以說是資料分群的延伸,只不過是向量量化常被用在影像和語音的壓縮,應用層面比較不相同,但是其優化目標類似分割式分群法,而群數增加過程則類似於階層式分群法。


Data Clustering and Pattern Recognition (資料分群與樣式辨認)