5-5 Naive Bayes Classifiers (嚙踝蕭嚙踝蕭嚙踝蕭嚙踝蕭嚙踝蕭嚙踝蕭嚙踝蕭嚙踝蕭嚙踝蕭嚙踝蕭嚙?

[english][all]
(請注意：中文版本並未隨英文版本同步更新！)
Slides
如果我們假設在給定的資料集中，每一維的資料都是獨立的，在此假設下，每一類資料的PDF可以簡化成此類資料在每一維的PDF的乘積。換句話說，我們可以先算出每一類資料在每一個維度所對應的PDF，然後將同一類資料的數個PDF進行連乘，就可以得到這一類資料的PDF。我們的假設可以使用數學式子來表示如下：
p(X|C) = P(X₁|C)P(X₂|C) ... P(X_d|C)
其中 X = [X₁, X₂, ..., X_d] 是一個特徵向量，而 C 代表一個特定類別。這個假設看來似乎過強，一般實際世界的資料似乎無法滿足此假設，但由此假設所產生的單純貝氏分類器（naive Bayes classifier，簡稱 NBC）卻是相當有實用性，其辨識效能常常不輸給其它更複雜的辨識器。
在實做上，我們通常假設一維資料所對應的PDF是高斯機率密度函式，在此情況下，對應的NBC步驟可以說明如下：

假設每一個類別的資料均是由 d 維的高斯機率密度函數（Gaussian probability density function）所產生：： g_i(x, m, S) = (2p)^-d/2*det(S)^-0.5*exp[-(x-m)^TS^-1(x-m)/2] 其中 m 是此高斯機率密度函數的平均向量（Mean vector），S 則是其共變異矩陣（Covariance matrix），我們可以根據 MLE，產生最佳的平均向量 m 和共變異矩陣 S。
若有需要，可以對每一個高斯機率密度函數乘上一個權重 w_i。
在實際進行分類時，w_i*g_i(x, m, S) 越大，則資料 x 隸屬於類別 i 的可能性就越高。

在實際進行運算時，我們通常不去計算 w_i*g_i(x, m, S) ，而是計算 log(w_i*g_i(x, m, S)) = log(w_i) + log(g_i(x, m, S))，以便避開計算指數時可能發生的種種問題（如精確度不足、計算耗時），log(g_i(x, m, S)) 的公式如下：
log[p(c_i)g(x, m_i, S_i)] = log(p(c_i)) - (d*log(2p) + log|S_i|)/2 - (x-m_i)^TS_i^-1(x-m_i)/2 The decision boundary between class i and j is represented by the following trajectory: p(c_i)g(x, m_i, S_i) = p(c_j)g(x, m_j, S_j). Taking the logrithm of both sides, we have log(p(c_i)) - (d*log(2p) + log|S_i|)/2 - (x-m_i)^TS_i^-1(x-m_i)/2 = log(p(c_j)) - (d*log(2p) + log|S|_j)/2 - (x-m_j)^TS_j^-1(x-m_j)/2 After simplification, we have the decision boundary as the following equation: (x-m_j)^TS_j^-1(x-m_j) - (x-m_i)^TS_i^-1(x-m_i) = log{[|S|_i p²(c_i)]/[|S|_j p²(c_j)]} where the right-hand side is a constant. Since both (x-m_j)^TS_j^-1(x-m_j) and (x-m_i)^TS_i^-1(x-m_i) are quadratic, the above equation represents a decision boundary of the quadratic form in the d-dimensional feature space.
例如，如果使用 NBC 來對 IRIS 資料的第三維及第四維進行分類，可使用下列範例程式：
Example 1: nbc01dataPlot.m

上圖秀出資料點，以及分類錯誤的點（叉叉）。特別需要注意的是，在上述的程式碼中，我們用到 classWeight，這是一個向量，用來指定每一個類別的權重，通常有兩種做法：

如果要滿足貝氏分類的原理（請見後續章節），此權重可以設定是每一個類別的資料個數。（計算每個類別的資料個數，可由 dsClassSize.m 來達成。）
如果每個類別的資料出線的機率相差不大，我們可將每一個類別的權重都設定成 1。

我們可以畫出每個類別及每個維度的一維PDF函數，以及其對應的資料，請見下列範例：
Example 2: nbcPlot00.m

我們也可以將每個類別的PDF函數以三維曲面呈現，並畫出其等高線，請見下列範例：
Example 3: nbcPlot01.m

根據這些高斯密度函數，我們就可以畫出每個類別的邊界，如下：
Example 4: nbcPlot02.m

Data Clustering and Pattern Recognition (資料分群與樣式辨認)