14-1 Introduction (蝪∩?)

[english][all]
(請注意：中文版本並未隨英文版本同步更新！) Slides: qbshMain.ppt, qbshMethod.ppt, qbshDemo.ppt.
本章介紹旋律辨識（Melody Recognition）的各種方法。一個旋律辨識系統，包含有下列三部分：

輸入端：系統所接受到的輸入，例如使用者的哼唱歌聲，或是使用者輸入的音符。一般而言，系統必須先將此輸入轉成可比對格式，例如音高向量，或是音符向量，才能送到下一階段進行比對。
資料庫：資料庫包含系統內部可供比對的歌曲，同樣的，這些歌曲也必須事先處理成可比對的格式，最簡單的格式，就是單音的資料，只包含音高及音長的資訊，而且同一時間點，最多只有一種發音，這就是所謂的「單音音樂」（Monophonic Music），例如單軌的 MIDI 或是人聲的清唱等，都屬於此類。相對而言，一般我們常聽到的 MP3 流行音樂或是古典交響樂，在同一個時間點通常會有多個樂器同時發音，所以是屬於「多音音樂」（Polyphonic music）。
比對方式：使用輸入向量來比對資料庫歌曲的方式，一般可以分成兩大類：

切音符的方法：輸入訊號和資料庫歌曲都以音符（包含音高和音長的資訊）為單位來進行比對，這種方法的好處是比對速度比較快，但是「切音符」（Note Segmentation）本身可能就帶來誤差，導致比對的辨識率也會降低。典型的方法有編輯距離（Edit Distance）等。
不切音符的方法：輸入訊號和資料庫歌曲都以音高向量為單位，每一秒可以包含8～32個音高點，這種方法的好處是比對辨識率比較高，但是所花的計算量也比較大。典型的方法有線性伸縮（Linear Scaling）、type-1 & type-2 DTW（Dynamic Time Warping）等。
混合法：輸入訊號不切音符，但資料庫的歌曲則是以音符為單位來儲存資料，典型的方法是 type-3 DTW 以及 HMM（Hidden Markov Models）等方法。

本章將針對這幾種旋律辨識常用的方法，來進行說明。
Audio Signal Processing and Recognition (音訊處理與辨識)