中文名稱 英文名稱 主持人 補助單位 計畫編號 補助金額 開始日期 結束日期 大型音樂檢索系統的理論與實作(1/3) Large-scale Music Information Retrieval System: Theory and Implementation(1/3) 張智星 國科會 NSC 90-2213-E-007-058 652300 2001/8/1 2002/7/31 語音與歌聲合成 Speech and Singing Voice Synthesis 張智星、黃紹華 清蔚科技 600000 2001/8/1 2002/7/31 語音與音樂訊號的比對方法與加速機制 Music/Speech Information Retrieval and Their Speedup Mechanisms 張智星 清蔚科技 600000 2001/5/1 2002/7/31
- 大型音樂檢索系統的理論與實作(1/3)
- 英文名稱: Large-scale Music Information Retrieval System: Theory and Implementation(1/3)
- 計畫編號: NSC 90-2213-E-007-058
- 主持人: 張智星
- 補助單位: 國科會
- 計畫執行期間: 2001/8/1 to 2002/7/31
- 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
- 摘要簡介:
由於網際網路的興起,各種數位媒體資訊在網路上流通的速度越來越頻繁,數量也越來越大,因此如何能以多媒體資料的內容,來對多媒體資料進行有效的索引(Indexing)和檢索(Retrieval,或翻譯成「擷取」),就變成一個非常重要的課題,這一類的研究通成為「以內容為主的多媒體資訊檢索」(Content-based Multimedia Information Retrieval),而相關的實作系統,不但能用於網際網路的多媒體搜尋引擎,也是數位圖書館(或博物館)內不可或缺的自動化工具。本計畫將對音樂資訊檢索進行技術與理論的探討,並將實作一個大型的網際網路音樂搜尋引擎,期望能將應用所有資訊檢索、圖形辨識、類神經網路、數位訊號處理、動態規劃、最近鄰居搜尋法、聚類分析的各項理論與方法,來對大型音樂資料庫進行快速且有效的檢索與比對,並能應用Web程式設計的技術,以及 Client/server 分散式計算,Sever clusters平行計算的技巧,來增加檢索速度,使得使用者對大型音樂資料庫進行檢索時,只要對著麥克風唱(或哼)8秒鐘,此系統即可在10秒內傳回最相似的前20名歌曲。
要進行本項研究,所需的背景知識較多,除了要對上述各種技術與方法的掌握與實做外,還必須瞭解音樂的特性,以及每個人不同的唱歌習性(轉音、抖音、共鳴等)在數位訊號及基頻分析所造成的效果。本計畫主持人從1997年即開始國科會 VOD 計畫之智慧型選歌介面的研究,並持續相關研究至今,其間並和清蔚科技公司合作,開發出「超級點歌王」(請見所附之試用光碟),可對3000首歌進行及時檢索,因此已累積相當研究動量,希望能申請多年期研究計畫,一舉建立全球檢索功能最完善、辨識率最高的網際網路音樂搜尋引擎,一如 www.google.com 在文字搜尋引擎所佔的龍頭地位般。
在第一年的計畫中,我們希望能建立一個中型音樂檢索系統,能對8000首歌曲進行檢索,並能在十秒內得到答案。我們將嘗試各種加速的方法,並調適各種方法的參數(如階層濾除法,詳見後述),以在有限的時間內,得到最佳的辨識率。此外,我們要加強基頻分析的可靠度,使得此系統對於使用不同發音方法的人,都能抓取夠多的正確基頻資訊,以加強整個系統的強健性。
在第二年的計畫中,我們希望持續前一年度的研究,繼續嘗試各種加速方法(詳見後述),並期望將這些方法應用於一個大型音樂檢索系統,能對15000首歌進行檢索,並能在十秒內得到結果。同時我們也將建立 web 上的搜尋引擎,以及音樂檔自動蒐集程式及自動建立索引程式,並利用 client/server 進行分散式計算,以減輕 server 的計算量以及網路資料流量。
在第三年的計畫中,我們仍然要精益求精,嘗試各種迅速有效的比對方法。此外,當歌越來越多時,我們要考慮建立 server cluster,以平行計算的方式,來降低使用者的等待時間。同時我們也要對 server 點歌計算的各種資料進行分析,以找出最好的 task partitioning 的方式,以及最佳的比對次序。
- 語音與歌聲合成
- 英文名稱: Speech and Singing Voice Synthesis
- 計畫編號:
- 主持人: 張智星、黃紹華
- 補助單位: 清蔚科技
- 計畫執行期間: 2001/8/1 to 2002/7/31
- 關鍵詞: Audio signal processing, speech synthesis, singing voice synthesis, sinusoidal modeling
- 摘要簡介:
由於電腦與網路科技的發達,多媒體人機介面的需求與應用層次也越來越廣泛。對於多媒體的處理,不外乎辨識、合成、壓縮與傳送。在先前相關的計畫中,我們已經進行了對於語音與旋律的辨識,在本計畫中,我們將進一步探討語音與歌聲的合成,以建立實用化的多媒體人機介面系統。
- 語音與音樂訊號的比對方法與加速機制
- 英文名稱: Music/Speech Information Retrieval and Their Speedup Mechanisms
- 計畫編號:
- 主持人: 張智星
- 補助單位: 清蔚科技
- 計畫執行期間: 2001/5/1 to 2002/7/31
- 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、語音檢索、圖形辨識、動態規劃、基頻分析、數位訊號處理
- 摘要簡介:
隨著電腦與網路 科技的爆炸性發展,多媒體資訊在網路流通的數量也越來越大,因此如何以各種技術來對多媒體資訊進行檢索與分類,變成為一個重要的問題。本計畫預計研究開發以「以內容為主的語音/音樂檢索系統」為主軸的相關技術,重點將放在如何開發適當的比對機制,並且如何針對大型資訊檢索系統來進行最佳化,以使比對時間越短越好。