14-8 蛑q蠕i

本章提出了很多旋律辨識的比對方法,每一種方法都有其優缺點,但是在實際應用時,最常被提到的評價標準就是辨識率和計算時間。若不考慮其他次要因素,通常我們是希望辨識率越高越好,而計算時間也是越少越好,但是這兩個因素會互相抵觸,套句俗話所說,總不能「又要馬兒好,又要馬而不吃草」吧?因此在方法的選用以及效能的評估,我們都會話出辨識率對計算時間的作圖,同時對於每一種方法,我們也會改變其參數,因此一種方法就會對應一條曲線,若有五種方法,就會出現五條曲線,這時候我們就可以根據應用面的需求來選取一種適合的方法以及相關的參數值。(請見本章作業。)

當資料庫的歌曲越來越多時,比對所花的時間也會越來越慢,但對於一個實際應用的系統而言,等待時間應該以不超過五秒為原則,因此我們必須在有限的時間內,找出各種辨識方法的組合,以便能夠求取辨識率的最大值,這種方法稱為 Progressive Filtering,也就是先用一些粗略的方法來刪除不可能的歌曲,再用比較精密的方法來進行詳細的比對,這樣就能夠大量節省比對時間,也不會大幅降低辨識率。至於如何區分粗略及詳細的方法,以及如何安排每個方法的先後,這些都需要詳細的數學分析,在此不再贅述。

如果不考慮計算時間,只求辨識率的提升,那麼一個簡單的方法,就是使用多個辨識方法來進行投票表決。例如,假設我們有10首wav檔案待辨識,共使用了三種方法,辨識結果請見下列表單:
wav檔案方法一方法二方法三投票表決法
其中 1 代表辨識正確,0 代表辨識錯誤,換句話說,方法一、二、三的辨識率有是 50%,而進行投票後,辨識率可以提升到 60%。若用集合的方式來表示,可見下圖,其中落於「方法一」的元素代表辨識錯誤之歌曲,餘類推。由於方法一、二、三所辨識錯誤歌曲的重複性不高,因此我們可以使用投票表決法,來達到提升辨識率的目標。

Hint
投票表決法一般而言,都可以提高辨識率,但是也有可能出現反效果,完全看錯誤資料的分佈而定。

如果辨識的方法很多,我們也可以使用一套最佳化的方法,讓系統根據辨識率列表,找出三個最有效的方法來進行投票表決,以得到最佳的辨識率。


Audio Signal Processing and Recognition (音訊處理與辨識)