2002年研究計畫概況

張智星


簡表

中文名稱 英文名稱 主持人 補助單位 計畫編號 補助金額 開始日期 結束日期
音訊技術研究  Studies on Audio Technology  鄭士康、賴飛羆、張智星、蘇文鈺  凌陽科技    800000  2002/9/1  2003/8/31 
大型音樂檢索系統的理論與實作(2/3)  Large-scale Music Information Retrieval System: Theory and Implementation(2/3)  張智星  國科會  NSC 90-2213-E-007-058  772300  2002/8/1  2003/7/31 
音樂檢索的加速方法  Methods for Efficient Music Retrieval  張智星  國科會、清蔚科技    500000  2002/6/1  2003/5/31 
語音訊號處理與辨識的軟硬體實作與整合  Audio Signal Processing and Recognition: Software/Hardware Implementation and Integration  張智星  鈦思科技    800000  2002/1/1  2002/12/31 

詳細資料

  1. 音訊技術研究

    • 英文名稱: Studies on Audio Technology
    • 計畫編號:
    • 主持人: 鄭士康、賴飛羆、張智星、蘇文鈺
    • 補助單位: 凌陽科技
    • 計畫執行期間: 2002/9/1 to 2003/8/31
    • 關鍵詞: MP3編碼器、音色檔案壓縮、語音轉換器、3D音訊處理
    • 摘要簡介:
      本計畫結合台大、清大、成大音訊處理技術研究有關學者,與凌陽科技同仁商討後,決定以MP3 編碼器設計、音色檔案壓縮、語音轉換器設計、3D音訊處理等四項技術為合作研發項目。茲分項說明如下:

      MP3編碼器由台大負責,開發合於MPEG標準的編碼器,並嘗試提升編碼器軟體技術水準,求更高品質的音樂與更大比例的壓縮。

      音色檔案壓縮由台大負責,開發更有效率的音色波形表儲存方法,希望能節省儲存空間;將來可以運用在一些較小的記憶元件或是儲存空間有限的設備上,期建立由sunplus提供之母音所對應之壓縮資料庫。

      以上二項屬音樂訊號處理技術,其成果可應用於各式電子科技產品,例如手機鈴聲,MP3隨身聽,錄音筆等。

      語音轉換器由清大負責,開發類似「柯南機」的小裝置,可以即時轉換語音。此種技術應用層面甚廣,例如趣味玩具、電影或電視劇的配音、在對講機或電話對談中偽裝個人的身份、移除語者的個人語音特性以增進語音辨識系統的辨識率等。

      3D音訊處理由成大負責,開發虛擬5.1聲道音響技術在普通耳機產生高級音響的效果,在電子遊戲及虛擬實境也有很多應用。

  2. 大型音樂檢索系統的理論與實作(2/3)

    • 英文名稱: Large-scale Music Information Retrieval System: Theory and Implementation(2/3)
    • 計畫編號: NSC 90-2213-E-007-058
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2002/8/1 to 2003/7/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      由於網際網路的興起,各種數位媒體資訊在網路上流通的速度越來越頻繁,數量也越來越大,因此如何能以多媒體資料的內容,來對多媒體資料進行有效的索引(Indexing)和檢索(Retrieval,或翻譯成「擷取」),就變成一個非常重要的課題,這一類的研究通成為「以內容為主的多媒體資訊檢索」(Content-based Multimedia Information Retrieval),而相關的實作系統,不但能用於網際網路的多媒體搜尋引擎,也是數位圖書館(或博物館)內不可或缺的自動化工具。

      本計畫將對音樂資訊檢索進行技術與理論的探討,並將實作一個大型的網際網路音樂搜尋引擎,期望能將應用所有資訊檢索、圖形辨識、類神經網路、數位訊號處理、動態規劃、最近鄰居搜尋法、聚類分析的各項理論與方法,來對大型音樂資料庫進行快速且有效的檢索與比對,並能應用Web程式設計的技術,以及 Client/server 分散式計算,Sever clusters平行計算的技巧,來增加檢索速度,使得使用者對大型音樂資料庫進行檢索時,只要對著麥克風唱(或哼)8秒鐘,此系統即可在10秒內傳回最相似的前20名歌曲。

      要進行本項研究,所需的背景知識較多,除了要對上述各種技術與方法的掌握與實做外,還必須瞭解音樂的特性,以及每個人不同的唱歌習性(轉音、抖音、共鳴等)在數位訊號及基頻分析所造成的效果。本計畫主持人從1997年即開始國科會 VOD 計畫之智慧型選歌介面的研究,並持續相關研究至今,其間並和清蔚科技公司合作,開發出「超級點歌王」(請見所附之試用光碟),可對3000首歌進行及時檢索,因此已累積相當研究動量,希望能申請多年期研究計畫,一舉建立全球檢索功能最完善、辨識率最高的網際網路音樂搜尋引擎,一如 www.google.com 在文字搜尋引擎所佔的龍頭地位般。

      在第一年的計畫中,我們希望能建立一個中型音樂檢索系統,能對8000首歌曲進行檢索,並能在十秒內得到答案。我們將嘗試各種加速的方法,並調適各種方法的參數(如階層濾除法,詳見後述),以在有限的時間內,得到最佳的辨識率。此外,我們要加強基頻分析的可靠度,使得此系統對於使用不同發音方法的人,都能抓取夠多的正確基頻資訊,以加強整個系統的強健性。

      在第二年的計畫中,我們希望持續前一年度的研究,繼續嘗試各種加速方法(詳見後述),並期望將這些方法應用於一個大型音樂檢索系統,能對15000首歌進行檢索,並能在十秒內得到結果。同時我們也將建立 web 上的搜尋引擎,以及音樂檔自動蒐集程式及自動建立索引程式,並利用 client/server 進行分散式計算,以減輕 server 的計算量以及網路資料流量。

      在第三年的計畫中,我們仍然要精益求精,嘗試各種迅速有效的比對方法。此外,當歌越來越多時,我們要考慮建立 server cluster,以平行計算的方式,來降低使用者的等待時間。同時我們也要對 server 點歌計算的各種資料進行分析,以找出最好的 task partitioning 的方式,以及最佳的比對次序。

  3. 音樂檢索的加速方法

    • 英文名稱: Methods for Efficient Music Retrieval
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會、清蔚科技
    • 計畫執行期間: 2002/6/1 to 2003/5/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      隨著數位內容(含聲音、音樂、影像、視訊等多媒體資料)數量的大幅成長,對於數位內容的檢索也就變成一個重要的課題。本計畫的動機即是希望針對音樂檢索系統,開發以哼唱選歌的友善介面,並發展有效的加速方法,以降低計算時間,並使此比對技術能真正落實於實際可用的商品上。在研究方法上,我們會採用各種 nearest neighbor search 的各種方法(如 k-d tree, branch-and-bound tree search, vantage-point tree search),來降低實際計算的時間。此外,我們也會嘗試階層式的比對方式(先用快速方法刪除不可能的歌,再用詳細的比對方法來處理剩餘的歌),並利用數學分析找出比對方法中的最佳參數值。最後,我們要利用大量的錄音資料來對系統效能進行最佳化,以求取最佳的系統參數。本計畫的最終目標,就是希望使用者能直接對麥克風哼唱八秒,利用本計畫所開發的音樂檢索系統即可對大型歌曲資料庫(包含三萬首歌曲)進行有效且迅速的比對,並能在五秒(從頭比對)或十五秒(從任意處比對)內回傳比對最相似的前二十首歌。

  4. 語音訊號處理與辨識的軟硬體實作與整合

    • 英文名稱: Audio Signal Processing and Recognition: Software/Hardware Implementation and Integration
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 鈦思科技
    • 計畫執行期間: 2002/1/1 to 2002/12/31
    • 關鍵詞:
    • 摘要簡介:
      隨著個人電腦的速度每18個月翻升一倍,所有以前被視為需要大量計算、只能在工作站執行的應用,現在都可以慢慢移轉到個人電腦執行。因此,語音訊號的處理與辨識,便漸漸成為非常實用性的技術,可以整合到個人電腦的各種相關應用。此外,更由於各種資訊家電、行動通訊(如 PDA、SmartPhone)的快速發展,以語音為介面的智慧型輸入方式也越來越重要,這些實用的技術除了要靠軟體的發展外,更重要的是如何在很短的時間內,將軟體的程式碼變成硬體的元件,並能立刻整合到相關的應用系統之中。

      從軟體到硬體的過程,除了要將演算法改為適合硬體運算的方法外,還要考慮在硬體方面的各種實際限制,例如記憶體的限制、由浮點數轉至定點數所造成的計算誤差、計算速度的降低、輸出/輸入的介面限制等,這些都是我們要考慮的因素。

      在傳統的作法中,由軟體至硬體的轉換過程完全要靠人工來完成,其中包含了許多「嘗試錯誤」的過程,本計畫將此過程盡量自動化,利用 MATLAB/Simulink/Toolbox 的各種現成功能,嘗試將在 Simulink 環境下所發展的辨識系統(如語者辨識、語音命令辨識、曲調辨識)轉換到 TI 的 67xx 系列的硬體平台。此外,我們也將發展相關的發展環境與介面,嘗試將 Simulink 的各種辨識系統轉換至更低階的版子,如 8051 等。