2001年研究計畫概況

張智星

簡表

中文名稱英文名稱主持人補助單位計畫編號補助金額開始日期結束日期

大型音樂檢索系統的理論與實作（1/3） Large-scale Music Information Retrieval System: Theory and Implementation（1/3）張智星國科會 NSC 90-2213-E-007-058 652300 2001/8/1 2002/7/31

語音與歌聲合成 Speech and Singing Voice Synthesis 張智星、黃紹華清蔚科技 600000 2001/8/1 2002/7/31

語音與音樂訊號的比對方法與加速機制 Music/Speech Information Retrieval and Their Speedup Mechanisms 張智星清蔚科技 600000 2001/5/1 2002/7/31

中文名稱	英文名稱	主持人	補助單位	計畫編號	補助金額	開始日期	結束日期
大型音樂檢索系統的理論與實作（1/3）	Large-scale Music Information Retrieval System: Theory and Implementation（1/3）	張智星	國科會	NSC 90-2213-E-007-058	652300	2001/8/1	2002/7/31
語音與歌聲合成	Speech and Singing Voice Synthesis	張智星、黃紹華	清蔚科技		600000	2001/8/1	2002/7/31
語音與音樂訊號的比對方法與加速機制	Music/Speech Information Retrieval and Their Speedup Mechanisms	張智星	清蔚科技		600000	2001/5/1	2002/7/31

詳細資料

大型音樂檢索系統的理論與實作（1/3）

英文名稱: Large-scale Music Information Retrieval System: Theory and Implementation（1/3）
計畫編號: NSC 90-2213-E-007-058
主持人: 張智星
補助單位: 國科會
計畫執行期間: 2001/8/1 to 2002/7/31
關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
摘要簡介:
由於網際網路的興起，各種數位媒體資訊在網路上流通的速度越來越頻繁，數量也越來越大，因此如何能以多媒體資料的內容，來對多媒體資料進行有效的索引（Indexing）和檢索（Retrieval，或翻譯成「擷取」），就變成一個非常重要的課題，這一類的研究通成為「以內容為主的多媒體資訊檢索」（Content-based Multimedia Information Retrieval），而相關的實作系統，不但能用於網際網路的多媒體搜尋引擎，也是數位圖書館（或博物館）內不可或缺的自動化工具。
本計畫將對音樂資訊檢索進行技術與理論的探討，並將實作一個大型的網際網路音樂搜尋引擎，期望能將應用所有資訊檢索、圖形辨識、類神經網路、數位訊號處理、動態規劃、最近鄰居搜尋法、聚類分析的各項理論與方法，來對大型音樂資料庫進行快速且有效的檢索與比對，並能應用Web程式設計的技術，以及 Client/server 分散式計算，Sever clusters平行計算的技巧，來增加檢索速度，使得使用者對大型音樂資料庫進行檢索時，只要對著麥克風唱（或哼）8秒鐘，此系統即可在10秒內傳回最相似的前20名歌曲。
要進行本項研究，所需的背景知識較多，除了要對上述各種技術與方法的掌握與實做外，還必須瞭解音樂的特性，以及每個人不同的唱歌習性（轉音、抖音、共鳴等）在數位訊號及基頻分析所造成的效果。本計畫主持人從1997年即開始國科會 VOD 計畫之智慧型選歌介面的研究，並持續相關研究至今，其間並和清蔚科技公司合作，開發出「超級點歌王」（請見所附之試用光碟），可對3000首歌進行及時檢索，因此已累積相當研究動量，希望能申請多年期研究計畫，一舉建立全球檢索功能最完善、辨識率最高的網際網路音樂搜尋引擎，一如 www.google.com 在文字搜尋引擎所佔的龍頭地位般。
在第一年的計畫中，我們希望能建立一個中型音樂檢索系統，能對8000首歌曲進行檢索，並能在十秒內得到答案。我們將嘗試各種加速的方法，並調適各種方法的參數（如階層濾除法，詳見後述），以在有限的時間內，得到最佳的辨識率。此外，我們要加強基頻分析的可靠度，使得此系統對於使用不同發音方法的人，都能抓取夠多的正確基頻資訊，以加強整個系統的強健性。
在第二年的計畫中，我們希望持續前一年度的研究，繼續嘗試各種加速方法（詳見後述），並期望將這些方法應用於一個大型音樂檢索系統，能對15000首歌進行檢索，並能在十秒內得到結果。同時我們也將建立 web 上的搜尋引擎，以及音樂檔自動蒐集程式及自動建立索引程式，並利用 client/server 進行分散式計算，以減輕 server 的計算量以及網路資料流量。
在第三年的計畫中，我們仍然要精益求精，嘗試各種迅速有效的比對方法。此外，當歌越來越多時，我們要考慮建立 server cluster，以平行計算的方式，來降低使用者的等待時間。同時我們也要對 server 點歌計算的各種資料進行分析，以找出最好的 task partitioning 的方式，以及最佳的比對次序。

語音與歌聲合成

英文名稱: Speech and Singing Voice Synthesis
計畫編號:
主持人: 張智星、黃紹華
補助單位: 清蔚科技
計畫執行期間: 2001/8/1 to 2002/7/31
關鍵詞: Audio signal processing, speech synthesis, singing voice synthesis, sinusoidal modeling
摘要簡介:
由於電腦與網路科技的發達，多媒體人機介面的需求與應用層次也越來越廣泛。對於多媒體的處理，不外乎辨識、合成、壓縮與傳送。在先前相關的計畫中，我們已經進行了對於語音與旋律的辨識，在本計畫中，我們將進一步探討語音與歌聲的合成，以建立實用化的多媒體人機介面系統。

語音與音樂訊號的比對方法與加速機制

英文名稱: Music/Speech Information Retrieval and Their Speedup Mechanisms
計畫編號:
主持人: 張智星
補助單位: 清蔚科技
計畫執行期間: 2001/5/1 to 2002/7/31
關鍵詞: 多媒體資訊檢索、音樂資訊檢索、語音檢索、圖形辨識、動態規劃、基頻分析、數位訊號處理
摘要簡介:
隨著電腦與網路科技的爆炸性發展，多媒體資訊在網路流通的數量也越來越大，因此如何以各種技術來對多媒體資訊進行檢索與分類，變成為一個重要的問題。本計畫預計研究開發以「以內容為主的語音/音樂檢索系統」為主軸的相關技術，重點將放在如何開發適當的比對機制，並且如何針對大型資訊檢索系統來進行最佳化，以使比對時間越短越好。