2002年研究計畫概況

張智星

簡表

中文名稱英文名稱主持人補助單位計畫編號補助金額開始日期結束日期

音訊技術研究 Studies on Audio Technology 鄭士康、賴飛羆、張智星、蘇文鈺凌陽科技 800000 2002/9/1 2003/8/31

大型音樂檢索系統的理論與實作（2/3） Large-scale Music Information Retrieval System: Theory and Implementation（2/3）張智星國科會 NSC 90-2213-E-007-058 772300 2002/8/1 2003/7/31

音樂檢索的加速方法 Methods for Efficient Music Retrieval 張智星國科會、清蔚科技 500000 2002/6/1 2003/5/31

語音訊號處理與辨識的軟硬體實作與整合 Audio Signal Processing and Recognition: Software/Hardware Implementation and Integration 張智星鈦思科技 800000 2002/1/1 2002/12/31

中文名稱	英文名稱	主持人	補助單位	計畫編號	補助金額	開始日期	結束日期
音訊技術研究	Studies on Audio Technology	鄭士康、賴飛羆、張智星、蘇文鈺	凌陽科技		800000	2002/9/1	2003/8/31
大型音樂檢索系統的理論與實作（2/3）	Large-scale Music Information Retrieval System: Theory and Implementation（2/3）	張智星	國科會	NSC 90-2213-E-007-058	772300	2002/8/1	2003/7/31
音樂檢索的加速方法	Methods for Efficient Music Retrieval	張智星	國科會、清蔚科技		500000	2002/6/1	2003/5/31
語音訊號處理與辨識的軟硬體實作與整合	Audio Signal Processing and Recognition: Software/Hardware Implementation and Integration	張智星	鈦思科技		800000	2002/1/1	2002/12/31

詳細資料

音訊技術研究

英文名稱: Studies on Audio Technology
計畫編號:
主持人: 鄭士康、賴飛羆、張智星、蘇文鈺
補助單位: 凌陽科技
計畫執行期間: 2002/9/1 to 2003/8/31
關鍵詞: MP3編碼器、音色檔案壓縮、語音轉換器、3D音訊處理
摘要簡介:
本計畫結合台大、清大、成大音訊處理技術研究有關學者，與凌陽科技同仁商討後，決定以MP3 編碼器設計、音色檔案壓縮、語音轉換器設計、3D音訊處理等四項技術為合作研發項目。茲分項說明如下：
MP3編碼器由台大負責，開發合於MPEG標準的編碼器，並嘗試提升編碼器軟體技術水準，求更高品質的音樂與更大比例的壓縮。
音色檔案壓縮由台大負責，開發更有效率的音色波形表儲存方法，希望能節省儲存空間；將來可以運用在一些較小的記憶元件或是儲存空間有限的設備上，期建立由sunplus提供之母音所對應之壓縮資料庫。
以上二項屬音樂訊號處理技術，其成果可應用於各式電子科技產品，例如手機鈴聲，MP3隨身聽，錄音筆等。
語音轉換器由清大負責，開發類似「柯南機」的小裝置，可以即時轉換語音。此種技術應用層面甚廣，例如趣味玩具、電影或電視劇的配音、在對講機或電話對談中偽裝個人的身份、移除語者的個人語音特性以增進語音辨識系統的辨識率等。
3D音訊處理由成大負責，開發虛擬5.1聲道音響技術在普通耳機產生高級音響的效果，在電子遊戲及虛擬實境也有很多應用。

大型音樂檢索系統的理論與實作（2/3）

英文名稱: Large-scale Music Information Retrieval System: Theory and Implementation（2/3）
計畫編號: NSC 90-2213-E-007-058
主持人: 張智星
補助單位: 國科會
計畫執行期間: 2002/8/1 to 2003/7/31
關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
摘要簡介:
由於網際網路的興起，各種數位媒體資訊在網路上流通的速度越來越頻繁，數量也越來越大，因此如何能以多媒體資料的內容，來對多媒體資料進行有效的索引（Indexing）和檢索（Retrieval，或翻譯成「擷取」），就變成一個非常重要的課題，這一類的研究通成為「以內容為主的多媒體資訊檢索」（Content-based Multimedia Information Retrieval），而相關的實作系統，不但能用於網際網路的多媒體搜尋引擎，也是數位圖書館（或博物館）內不可或缺的自動化工具。
本計畫將對音樂資訊檢索進行技術與理論的探討，並將實作一個大型的網際網路音樂搜尋引擎，期望能將應用所有資訊檢索、圖形辨識、類神經網路、數位訊號處理、動態規劃、最近鄰居搜尋法、聚類分析的各項理論與方法，來對大型音樂資料庫進行快速且有效的檢索與比對，並能應用Web程式設計的技術，以及 Client/server 分散式計算，Sever clusters平行計算的技巧，來增加檢索速度，使得使用者對大型音樂資料庫進行檢索時，只要對著麥克風唱（或哼）8秒鐘，此系統即可在10秒內傳回最相似的前20名歌曲。
要進行本項研究，所需的背景知識較多，除了要對上述各種技術與方法的掌握與實做外，還必須瞭解音樂的特性，以及每個人不同的唱歌習性（轉音、抖音、共鳴等）在數位訊號及基頻分析所造成的效果。本計畫主持人從1997年即開始國科會 VOD 計畫之智慧型選歌介面的研究，並持續相關研究至今，其間並和清蔚科技公司合作，開發出「超級點歌王」（請見所附之試用光碟），可對3000首歌進行及時檢索，因此已累積相當研究動量，希望能申請多年期研究計畫，一舉建立全球檢索功能最完善、辨識率最高的網際網路音樂搜尋引擎，一如 www.google.com 在文字搜尋引擎所佔的龍頭地位般。
在第一年的計畫中，我們希望能建立一個中型音樂檢索系統，能對8000首歌曲進行檢索，並能在十秒內得到答案。我們將嘗試各種加速的方法，並調適各種方法的參數（如階層濾除法，詳見後述），以在有限的時間內，得到最佳的辨識率。此外，我們要加強基頻分析的可靠度，使得此系統對於使用不同發音方法的人，都能抓取夠多的正確基頻資訊，以加強整個系統的強健性。
在第二年的計畫中，我們希望持續前一年度的研究，繼續嘗試各種加速方法（詳見後述），並期望將這些方法應用於一個大型音樂檢索系統，能對15000首歌進行檢索，並能在十秒內得到結果。同時我們也將建立 web 上的搜尋引擎，以及音樂檔自動蒐集程式及自動建立索引程式，並利用 client/server 進行分散式計算，以減輕 server 的計算量以及網路資料流量。
在第三年的計畫中，我們仍然要精益求精，嘗試各種迅速有效的比對方法。此外，當歌越來越多時，我們要考慮建立 server cluster，以平行計算的方式，來降低使用者的等待時間。同時我們也要對 server 點歌計算的各種資料進行分析，以找出最好的 task partitioning 的方式，以及最佳的比對次序。

音樂檢索的加速方法

英文名稱: Methods for Efficient Music Retrieval
計畫編號:
主持人: 張智星
補助單位: 國科會、清蔚科技
計畫執行期間: 2002/6/1 to 2003/5/31
關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
摘要簡介:
隨著數位內容（含聲音、音樂、影像、視訊等多媒體資料）數量的大幅成長，對於數位內容的檢索也就變成一個重要的課題。本計畫的動機即是希望針對音樂檢索系統，開發以哼唱選歌的友善介面，並發展有效的加速方法，以降低計算時間，並使此比對技術能真正落實於實際可用的商品上。在研究方法上，我們會採用各種 nearest neighbor search 的各種方法（如 k-d tree, branch-and-bound tree search, vantage-point tree search），來降低實際計算的時間。此外，我們也會嘗試階層式的比對方式（先用快速方法刪除不可能的歌，再用詳細的比對方法來處理剩餘的歌），並利用數學分析找出比對方法中的最佳參數值。最後，我們要利用大量的錄音資料來對系統效能進行最佳化，以求取最佳的系統參數。本計畫的最終目標，就是希望使用者能直接對麥克風哼唱八秒，利用本計畫所開發的音樂檢索系統即可對大型歌曲資料庫（包含三萬首歌曲）進行有效且迅速的比對，並能在五秒（從頭比對）或十五秒（從任意處比對）內回傳比對最相似的前二十首歌。

語音訊號處理與辨識的軟硬體實作與整合

英文名稱: Audio Signal Processing and Recognition: Software/Hardware Implementation and Integration
計畫編號:
主持人: 張智星
補助單位: 鈦思科技
計畫執行期間: 2002/1/1 to 2002/12/31
關鍵詞:
摘要簡介:
隨著個人電腦的速度每18個月翻升一倍，所有以前被視為需要大量計算、只能在工作站執行的應用，現在都可以慢慢移轉到個人電腦執行。因此，語音訊號的處理與辨識，便漸漸成為非常實用性的技術，可以整合到個人電腦的各種相關應用。此外，更由於各種資訊家電、行動通訊（如 PDA、SmartPhone）的快速發展，以語音為介面的智慧型輸入方式也越來越重要，這些實用的技術除了要靠軟體的發展外，更重要的是如何在很短的時間內，將軟體的程式碼變成硬體的元件，並能立刻整合到相關的應用系統之中。
從軟體到硬體的過程，除了要將演算法改為適合硬體運算的方法外，還要考慮在硬體方面的各種實際限制，例如記憶體的限制、由浮點數轉至定點數所造成的計算誤差、計算速度的降低、輸出/輸入的介面限制等，這些都是我們要考慮的因素。
在傳統的作法中，由軟體至硬體的轉換過程完全要靠人工來完成，其中包含了許多「嘗試錯誤」的過程，本計畫將此過程盡量自動化，利用 MATLAB/Simulink/Toolbox 的各種現成功能，嘗試將在 Simulink 環境下所發展的辨識系統（如語者辨識、語音命令辨識、曲調辨識）轉換到 TI 的 67xx 系列的硬體平台。此外，我們也將發展相關的發展環境與介面，嘗試將 Simulink 的各種辨識系統轉換至更低階的版子，如 8051 等。