12-2 すs
資料編修(data editing)的主要概念乃在於透過自動化的方式移除資料點中可能的雜訊點,這些雜訊通常都發生於不同類別資料分佈的交界處。
圖6-1.a:資料編修
如圖6-1.a所示,左側為原始資料,在群與群的交接處存在著若干可能的雜訊點(黃色圓圈中的資料點),這些雜訊可能導致往後分類的不易或錯誤。倘若我們將這些可能的雜訊移除(如圖6-1.a右側所示),不同類別的資料間彷彿開出了一道防火巷,我們便可以很輕易地定義出一條分界線將不同的類別資料分開。
整個資料編修的流程可概述如下:
1. 隨機選取任一點A,並尋找與A最接近的一點B(如圖6-1.a左側劃底線兩點)。
2. 假如A與B屬於同一類,則重複步驟一。
3. 假如A與B屬於不同類,則移除A、B中任意一點。
在步驟三中,我們可以加入些許經驗法則來辨別A、B間何者較有可能是雜訊點。在移除A或B之間,我們先求A與同類資料點中最接近的一點間的距離為Dist(A);求B與同類資料點中最接近的一點間的距離為Dist(B)。假如Dist(A)< Dist(B),表示B離同類的資料較遠,因此B比較可能是雜訊點;反之,Dist(A)> Dist(B),表示A離同類的資料較遠,因此A比較可能是雜訊點。
範例:
圖6-1.b:資料編修過程(步驟一)
圖6-1.c:資料編修結果
Data Clustering and Pattern Recognition (資料分群與樣式辨認)