中文名稱 英文名稱 主持人 補助單位 計畫編號 補助金額 開始日期 結束日期 用於音樂資訊檢索的深度學習 Deep Learning for Music Information Retrieval 張智星 科技部 2938000 2015/8/1 2018/7/31 音訊指紋檢索與浮水印嵌入技術 Audio Fingerprinting & Audio Watermarking 張智星 中華電信 980000 2015/4/1 2016/3/31 抗干擾的音訊資訊隱藏技術 Noise-robust Information Hiding for Audio Signals 張智星 資策會 600000 2015/1/1 2015/12/15
- 用於音樂資訊檢索的深度學習
- 英文名稱: Deep Learning for Music Information Retrieval
- 計畫編號:
- 主持人: 張智星
- 補助單位: 科技部
- 計畫執行期間: 2015/8/1 to 2018/7/31
- 關鍵詞:
- 摘要簡介:
隨著電腦計算能力的快速推進(歸功於 CPU 及 GPU 的共同運作)、記憶體的大量使用,以及機器學習的方法演進,深度學習的神經網路(deep-learning neural networks)已經被成功地用在大量影像及語音的辨識,其正確率已經大幅超越傳統的辨識方法,同時也掀起了一股新的研究及應用熱潮。本計畫將探討深度學習如何用於音樂資訊檢索的各項基本工作,主要包含複音音訊音樂的人聲主旋律抽取(vocal melody extraction from polyphonic audio music)、曲風分類(genre classification)、情緒分類(mood classification)、翻唱歌偵測(cover song identification)、音訊聲紋辨識(audio fingerprinting)、哼唱選歌(query by singing/humming)、節拍追蹤(beat tracking)等。往年我們參加 MIREX 比賽的這些相關評比,都得到很傑出的成績,但是若要再精進,似乎有一個玻璃天花板門檻,在這個計畫中,我們將使用各種不同的深度學習方式(包含各種神經網路的架構、學習法、GPU 的實現等),嘗試突破這個玻璃天花板門檻,第一年將以「複音音訊音樂的人聲主旋律抽取」為主;第二年的目標則是「曲風及情緒分類」;第三年的目標則是「音訊聲紋辨 識及翻唱歌偵測」。
- 音訊指紋檢索與浮水印嵌入技術
- 英文名稱: Audio Fingerprinting & Audio Watermarking
- 計畫編號:
- 主持人: 張智星
- 補助單位: 中華電信
- 計畫執行期間: 2015/4/1 to 2016/3/31
- 關鍵詞:
- 摘要簡介:
本計劃將以音訊特徵辨識技術,以及音訊浮水印嵌入技術,對現有影音服務之品質進行提升。在音訊特徵辨識技術方面,將透過索引雜湊技術的改良,並引進GPU等平行技術的支援,以快速地對大量媒體資料進行處理,以期達到系統資源運用的最佳化,以及降低用戶送出查詢後的等待時間。對於音訊浮水印嵌入技術,則可在人耳無法察覺的條件下,將訊息隱藏於音訊中,該訊息可用於音訊之相關資訊、廣告傳播,增加原音訊之附加價值,另也可用於數位資料著作權之管理。
- 抗干擾的音訊資訊隱藏技術
- 英文名稱: Noise-robust Information Hiding for Audio Signals
- 計畫編號:
- 主持人: 張智星
- 補助單位: 資策會
- 計畫執行期間: 2015/1/1 to 2015/12/15
- 關鍵詞: 資訊隱藏、音訊處理、音訊浮水印
- 摘要簡介:
本計畫將開發抗干擾的音訊資訊隱藏演算法,可將特定資訊(如影片ID、產品網址等)事先嵌入音訊之中,而且這些隱藏的資訊並不會讓音訊失真,聽其來應該和原來的音訊一樣。音訊播放時,在附近的使用者可用手機等手持式裝置在短時間內讀出隱藏其中的資訊,例如短網址等,並可立即在手機上顯示或執行。由於所有的計算都在前台完成,所以我們可以減少後台伺服器的負荷,非常適合大量使用者使用。