2004年研究計畫概況

張智星


簡表

中文名稱 英文名稱 主持人 補助單位 計畫編號 補助金額 開始日期 結束日期
多模式音樂檢索的加速方法  Speedup Mechanisms for Multi-modal Music Information Retrieval  張智星  國科會、清蔚科技  NSC 93-2622-E-007-012-CC3  327000  2004/11/1  2005/10/31 
台灣視障用數位典藏之語音檢索系統  Speech-based Information Retrieval for the Blind by Digital Archives in Taiwan  唐傳義、張智星  國科會    1000000  2004/8/1  2005/4/30 
音樂搜尋的加速與辨識率提升,及其在嵌入式系統的實作與應用(1/3)  Speedup Mechansim and Performance Enhancement for Music Information Retrieval, with Applications to Embedded Systems  張智星  國科會  NSC 93-2213-E-007-058  695000  2004/8/1  2005/7/31 
應用於數位教材的語音檢索與語者確認  On the Use of Speech-based Retrieval and Speaker Verification for Digital Courseware  張智星  統信企業管理顧問    500000  2004/3/1  2004/10/31 

詳細資料

  1. 多模式音樂檢索的加速方法

    • 英文名稱: Speedup Mechanisms for Multi-modal Music Information Retrieval
    • 計畫編號: NSC 93-2622-E-007-012-CC3
    • 主持人: 張智星
    • 補助單位: 國科會、清蔚科技
    • 計畫執行期間: 2004/11/1 to 2005/10/31
    • 關鍵詞: 多模式音樂資訊檢索、圖形辨識、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      網路所標榜的終極目標,是要使任何人能在任何時間、任何地點,都能獲得所需的任何資訊或服務,因此提供使用者一個有效的資訊檢索機制,便成為檢索系統所應該考慮的重要課題。本計畫的動機即是希望針對音樂檢索系統,提供多模式的音樂檢索技術配合音樂檢索的友善介面,並發展有效的加速方法,以降低計算時間,並使比對技術能真正落實於實際可用的商品上。在多模式檢索技術上,我們提供query by singing、query by humming、query by tapping 以及 query by speech,讓使用者能多元化輸入檢索資料。在加速研究方法上,我們會採用建立索引(indexing)為基礎的方法,來降低實際計算的時間。也就是結合階層式的比對方式(先用快速方法刪除不可能的歌,再用詳細的比對方法來處理剩餘的歌),並利用數學分析找出比對方法中的最佳參數值。最後,我們要利用大量的錄音資料來對系統效能進行最佳化,以求取最佳的系統參數。本計畫的最終目標,就是希望使用者能直接對麥克風哼唱八秒,利用本計畫所開發的音樂檢索系統即可對大型歌曲資料庫(包含三萬首歌曲)進行有效且迅速的比對,並能在五秒(從頭比對)或十五秒(從任意處比對)內回傳比對最相似的前二十首歌。

  2. 台灣視障用數位典藏之語音檢索系統

    • 英文名稱: Speech-based Information Retrieval for the Blind by Digital Archives in Taiwan
    • 計畫編號:
    • 主持人: 唐傳義、張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2004/8/1 to 2005/4/30
    • 關鍵詞: 數位訊號處理、語音辨識、圖形辨識
    • 摘要簡介:
      當我們對週遭事物視若無睹時,有些人、卻只能透過摸索求取生存。當網路加速資訊的流通時,有些人、卻逐漸喪失求知的基本人權。是否數位典藏的應用加值技術能改善此知識落差(Knowledge Gap)?

      本研究目的為建立台灣視障用數位典藏之語音檢索系統。本計畫以將網際網路新聞及音樂檢索為研究發展的目標,主要提供了全方位盲人『書籍』、『新聞』、『音樂』的檢索服務,透過人性化的使用者介面,以語音輸入的方式來搜尋新聞及書籍,以哼唱的方式來搜尋音樂,並建立分散式數位有聲資料庫,讓盲友能藉由語音的檢索,更方便、有效率的存取數位資訊。

      在盲友會建置『聯合書目通報系統』、『全國視障有聲書製作平台』、『盲人有聲書圖書館建置計畫』及自費將大量語音有聲書數位化後,透過本計畫實作之語音有聲檢索系統的加值應用,將可以完整協調整合國內盲友相關服務資源,並真正提升盲友服務單位之前所進行珍貴數位典藏之附加價值,補足盲友數位典藏拼圖中最後一塊也是最重要一塊的缺角。相關的技術及典範將來並可移轉至國內相關的文教服務單位及數位典藏機構,將來更可嘗試研擬出對一般朋友的收費加值服務,以對於各弱勢團體機構增加外收入,建立其永續經營之運作機制,成為國內外數位典藏之公益加值應用樹立一最佳典範。

  3. 音樂搜尋的加速與辨識率提升,及其在嵌入式系統的實作與應用(1/3)

    • 英文名稱: Speedup Mechansim and Performance Enhancement for Music Information Retrieval, with Applications to Embedded Systems
    • 計畫編號: NSC 93-2213-E-007-058
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2004/8/1 to 2005/7/31
    • 關鍵詞: 音樂資訊檢索、多模式使用者介面、旋律辨識、音高追蹤、多媒體資料庫檢索、動態時間校正
    • 摘要簡介:
      由於本計畫主持人過去數年在國科會、教育部卓越計畫及清蔚科技之經費支援下,已經成功地建立了一個大型的音樂檢索系統,收集了超過兩萬首歌曲,讓使用者能以哼唱、語音與敲擊等不同方式來選取網際網路上的歌曲。為了能夠以快速的方法對大量資料進行有效的比對,我們除了在比對方法進行深入研究外,也架設了網格運算(Grid Computing)的伺服器平台,期望以平行及分散處理的方式,增進系統的可用性。在此種包含大量資料處理與比對的系統中,衍生了許多相關研究的研究議題,本研究計畫擬以三年時間,針對這些議題進行深入探討,這些議題及相關研究時程列出如下:
      1. 第一年: 以提高辨識率為主
        1. 音高追蹤(Pitch Tracking)的各種新方法的嘗試,包含 Combination of Classifiers、ACF/AMDF Map 等。
        2. 動態時間校正(Dynamic Time Warping)的改進與測試,包含 Local Path Constraints、Path Penalty、Flexible Starting Points 等。
      2. 第二年:以加快辨識速度為主
        1. 「兩階段式比對法」的探討與改良,包含以不同的方式進行兩階段比對,例如 Linear Scaling 加 DTW (Dynamic Time Warping)、
        2. 其他各種音樂檢索方法的探討與加速,包含如何精確地計算 DTW 的 Lower Bound、如何以 FastMap 的方法來將歌曲轉換到高為空間中的點等。
        3. 隱藏式馬可夫模型(Hidden Markov Models)的嘗試與改進
      3. 第三年:以嵌入式系統的移植為主
        1. 音高追蹤與檢索方法的精進與簡化
        2. 嵌入式系統的實作與應用

  4. 應用於數位教材的語音檢索與語者確認

    • 英文名稱: On the Use of Speech-based Retrieval and Speaker Verification for Digital Courseware
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 統信企業管理顧問
    • 計畫執行期間: 2004/3/1 to 2004/10/31
    • 關鍵詞: 數位訊號處理、語音辨識、語者辨識、圖形辨識
    • 摘要簡介:
      本計畫將探討如何使用語音技術於數位教材的檢索與安全機制。在檢索方面,我們將使用語音檢索的方式,讓使用者只要對麥克風說出關鍵詞,電腦即可搜尋出相關的教材。在安全機制方面,我們使用語者確認的技術,讓使用者只要對著麥克風說出自己的代表語句,系統即可確認此使用者是否真為其本人。