2003年研究計畫概況

張智星


簡表

中文名稱 英文名稱 主持人 補助單位 計畫編號 補助金額 開始日期 結束日期
大型音樂檢索系統的理論與實作(3/3)  Large-scale Music Information Retrieval System: Theory and Implementation(3/3)  張智星  國科會  NSC 90-2213-E-007-058  882300  2003/8/1  2004/7/31 
音樂檢索的加速方法  Methods for Efficient Music Retrieval  張智星  國科會、清蔚科技    500000  2003/6/1  2004/5/31 

詳細資料

  1. 大型音樂檢索系統的理論與實作(3/3)

    • 英文名稱: Large-scale Music Information Retrieval System: Theory and Implementation(3/3)
    • 計畫編號: NSC 90-2213-E-007-058
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2003/8/1 to 2004/7/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      由於網際網路的興起,各種數位媒體資訊在網路上流通的速度越來越頻繁,數量也越來越大,因此如何能以多媒體資料的內容,來對多媒體資料進行有效的索引(Indexing)和檢索(Retrieval,或翻譯成「擷取」),就變成一個非常重要的課題,這一類的研究通成為「以內容為主的多媒體資訊檢索」(Content-based Multimedia Information Retrieval),而相關的實作系統,不但能用於網際網路的多媒體搜尋引擎,也是數位圖書館(或博物館)內不可或缺的自動化工具。

      本計畫將對音樂資訊檢索進行技術與理論的探討,並將實作一個大型的網際網路音樂搜尋引擎,期望能將應用所有資訊檢索、圖形辨識、類神經網路、數位訊號處理、動態規劃、最近鄰居搜尋法、聚類分析的各項理論與方法,來對大型音樂資料庫進行快速且有效的檢索與比對,並能應用Web程式設計的技術,以及 Client/server 分散式計算,Sever clusters平行計算的技巧,來增加檢索速度,使得使用者對大型音樂資料庫進行檢索時,只要對著麥克風唱(或哼)8秒鐘,此系統即可在10秒內傳回最相似的前20名歌曲。

      要進行本項研究,所需的背景知識較多,除了要對上述各種技術與方法的掌握與實做外,還必須瞭解音樂的特性,以及每個人不同的唱歌習性(轉音、抖音、共鳴等)在數位訊號及基頻分析所造成的效果。本計畫主持人從1997年即開始國科會 VOD 計畫之智慧型選歌介面的研究,並持續相關研究至今,其間並和清蔚科技公司合作,開發出「超級點歌王」(請見所附之試用光碟),可對3000首歌進行及時檢索,因此已累積相當研究動量,希望能申請多年期研究計畫,一舉建立全球檢索功能最完善、辨識率最高的網際網路音樂搜尋引擎,一如 www.google.com 在文字搜尋引擎所佔的龍頭地位般。

      在第一年的計畫中,我們希望能建立一個中型音樂檢索系統,能對8000首歌曲進行檢索,並能在十秒內得到答案。我們將嘗試各種加速的方法,並調適各種方法的參數(如階層濾除法,詳見後述),以在有限的時間內,得到最佳的辨識率。此外,我們要加強基頻分析的可靠度,使得此系統對於使用不同發音方法的人,都能抓取夠多的正確基頻資訊,以加強整個系統的強健性。

      在第二年的計畫中,我們希望持續前一年度的研究,繼續嘗試各種加速方法(詳見後述),並期望將這些方法應用於一個大型音樂檢索系統,能對15000首歌進行檢索,並能在十秒內得到結果。同時我們也將建立 web 上的搜尋引擎,以及音樂檔自動蒐集程式及自動建立索引程式,並利用 client/server 進行分散式計算,以減輕 server 的計算量以及網路資料流量。

      在第三年的計畫中,我們仍然要精益求精,嘗試各種迅速有效的比對方法。此外,當歌越來越多時,我們要考慮建立 server cluster,以平行計算的方式,來降低使用者的等待時間。同時我們也要對 server 點歌計算的各種資料進行分析,以找出最好的 task partitioning 的方式,以及最佳的比對次序。

  2. 音樂檢索的加速方法

    • 英文名稱: Methods for Efficient Music Retrieval
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會、清蔚科技
    • 計畫執行期間: 2003/6/1 to 2004/5/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      隨著數位內容(含聲音、音樂、影像、視訊等多媒體資料)數量的大幅成長,對於數位內容的檢索也就變成一個重要的課題。本計畫的動機即是希望針對音樂檢索系統,開發以哼唱選歌的友善介面,並發展有效的加速方法,以降低計算時間,並使此比對技術能真正落實於實際可用的商品上。在研究方法上,我們會採用各種 nearest neighbor search 的各種方法(如 k-d tree, branch-and-bound tree search, vantage-point tree search),來降低實際計算的時間。此外,我們也會嘗試階層式的比對方式(先用快速方法刪除不可能的歌,再用詳細的比對方法來處理剩餘的歌),並利用數學分析找出比對方法中的最佳參數值。最後,我們要利用大量的錄音資料來對系統效能進行最佳化,以求取最佳的系統參數。本計畫的最終目標,就是希望使用者能直接對麥克風哼唱八秒,利用本計畫所開發的音樂檢索系統即可對大型歌曲資料庫(包含三萬首歌曲)進行有效且迅速的比對,並能在五秒(從頭比對)或十五秒(從任意處比對)內回傳比對最相似的前二十首歌。