2000年研究計畫概況

張智星


簡表

中文名稱 英文名稱 主持人 補助單位 計畫編號 補助金額 開始日期 結束日期
以內容為主的多媒體檢索系統 ─ 由軟體到硬體的快速雛形與發展環境  A Fast Prototyping Environment for Content-based Multimedia Information Retrieval  張智星  鈦思科技    800000  2000/12/1  2001/12/31 
音樂檢索技術的加速與改良  Efficient and Effective Techniques in Music Information Retrieval  張智星  清蔚科技      2000/9/1  2001/8/31 
現有影像/語音處理研究典範於醫療自動化之缺失與改進 - 以核磁共振醫療輔助診斷系統之影像處理即時化及輸入語音化為案例  On-line Image Processing and Voice Activation in Magnetic Resonance Computer-Aided Diagnosis: A Strategy for Overcoming the Limitations in State of the Art Signal Processing Techniques  傅家啟、彭振興、張智星  國科會      2000/8/1  2001/7/31 
整合語音辨識與合成的以歌選歌系統  On the Integration of Speech Recognition/Synthesis into a Content-based Music Retrieval System  張智星、黃紹華  清蔚科技      2000/8/1  2001/7/31 
清華大學「非同步引導式遠距教學系統」推動計畫  Asynchronous Distance Learning Based on a Web Guiding System  王小川、黃一農、張智星、楊叔卿  教育部      2000/1/1  2000/12/31 

詳細資料

  1. 以內容為主的多媒體檢索系統 ─ 由軟體到硬體的快速雛形與發展環境

    • 英文名稱: A Fast Prototyping Environment for Content-based Multimedia Information Retrieval
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 鈦思科技
    • 計畫執行期間: 2000/12/1 to 2001/12/31
    • 關鍵詞: 數位訊號處理、圖形辨識、多媒體檢索、影像處理、快速雛形
    • 摘要簡介:
      隨著電腦與網路資訊的爆炸性發展,多媒體資訊檢索技術的需求與挑戰也與日俱增。 多媒體資訊檢索研究必須結合不同領域的知識與技術,包括數位訊號處理、影像處理、音訊處理、自然語言處理,資料庫技術,網路技術,Data Mining,Agent等。而智慧型人機介面的需求與應用層次也越來越廣泛。近年來,更由於sensor technology的進步,帶動了圖形辨識 (Pattern Recognition) 的實用化。因此,以辨識技術為基礎的智慧型多媒體檢索或辨識系統也隨處可見,例如語音辨識、語者辨識、人臉辨識、手寫字辨識、歌聲辨識、名片辨識等。

      本計畫預計研究開發以「以內容為主的多媒體檢索系統」為主軸的相關技術,重點將放在如何以現有的 MATLAB/Simulink/Toolboxes 來進行由軟體到硬體的快速雛形發展(Fast Prototyping),並開發出相關的發展環境與人機介面。我們將以各種多媒體檢索或辨識系統來進行開發與測試,例如語者辨識(Speaker Recognition)、語音辨識(Speech Recognition)、人臉辨識(Face Recognition System)、曲調辨識(Melody Recognition)等。

      目前多媒體檢索都是以軟體為主,但若要將之應用範圍擴大,則需考慮將其硬體化,以便能使用於日常生活,如手機、PDA,以及各種家用電器用品。從軟體到硬體的過程,除了要將演算法改為適合硬體運算的方法外,還要考慮在硬體方面的各種實際限制,例如記憶體的限制、由浮點數轉至定點數所造成的計算誤差、計算速度的降低、輸出/輸入的介面限制等,這些都是我們要考慮的因素。

      在傳統的作法中,由軟體至硬體的轉換過程完全要靠人工來完成,其中包含了許多「嘗試錯誤」的過程,本計畫將此過程盡量自動化,利用 MATLAB/Simulink/Toolbox 的各種現成功能,嘗試將在 Simulink 環境下所發展的辨識系統(如語者辨識、語音命令辨識、曲調辨識)轉換到 TI 的 67xx 系列的硬體平台。此外,我們也將發展相關的發展環境與介面,嘗試將 Simulink 的各種辨識系統轉換至更低階的版子,如 8051 等。

  2. 音樂檢索技術的加速與改良

    • 英文名稱: Efficient and Effective Techniques in Music Information Retrieval
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 清蔚科技
    • 計畫執行期間: 2000/9/1 to 2001/8/31
    • 關鍵詞: Music Information Retrieval, Multimedia Information Retrieval, Nearest Neighbor Search
    • 摘要簡介:
      隨著電腦與網路資訊的爆炸,資訊檢索技術的需求與挑戰也與日俱增。資訊檢索研究必須結合不同領域的知識與技術,包括自然語言處理,資料庫技術,網路技術,Data Mining,Agent等。而智慧型人機介面的需求與應用層次也越來越廣泛。近年來,更由於sensor technology的進步,帶動了圖形辨識 (Pattern Recognition) 的實用化。因此,以辨識技術為基礎的智慧型人機介面也隨處可見,例如語音辨識、語音合成、手寫字辨識、歌聲辨識、名片辨識等。

      本計畫預計研究開發以「以歌選歌」系統為主軸的相關檢索與加速技術,並整合語者、語音辨識之技術,使開發出來的智慧型點歌系統,不但能接受使用者的歌聲、語音輸入,並亦能在吵雜的環境中,迅速正確地判斷歌聲、語音、笑聲等,使辨識的結果更為準確。此外,我們還要研究各種加速方法,使辨識所花的時間越少越好,並嘗試將這些方法運用於不同平台上(如 Linux、Windows CE、Palm、家電產品等),以使所開發出來的智慧型點歌系統能應用於日常生活之中。

      在先前的相關計畫中,我們已經開發出一套「以歌選歌」的系統,在此系統中,使用者可以用八秒的歌聲輸入(也可以可用唱的、哼的,或用樂器演奏),然後就能在5-10秒內,從500首歌曲中搜尋出最相近的前20名,並依相似度大小排列。本計畫將加速原先的點歌系統的比對程序,並整合語者番段辨識之技術,使開發出來的智慧型點歌系統,不但能接受使用者的歌聲、語音輸入,並亦能迅速在吵雜的環境中,正確判斷歌聲、語音、笑聲等,用以接受使用者訊號之輸入。

  3. 現有影像/語音處理研究典範於醫療自動化之缺失與改進 - 以核磁共振醫療輔助診斷系統之影像處理即時化及輸入語音化為案例

    • 英文名稱: On-line Image Processing and Voice Activation in Magnetic Resonance Computer-Aided Diagnosis: A Strategy for Overcoming the Limitations in State of the Art Signal Processing Techniques
    • 計畫編號:
    • 主持人: 傅家啟、彭振興、張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2000/8/1 to 2001/7/31
    • 關鍵詞: 醫療自動化,電腦輔助量測及診斷,核磁共振影像,動態規劃,自適臨界值法、模糊C平均法,中間值切斷法,語音辨識,線性預測編碼,倒頻譜,動態時間校準,隱藏式馬可夫模型,最優組合搜尋法
    • 摘要簡介:

      自醫療設備數位化後,醫療自動化為一重要之研究課題,而電腦輔助診斷為醫療自動化之一主要工具,雖然已累積大量研究成果及經驗,甚至已有商品化之產品。然而不論是影像處理或是語音辨識,一般而言,因影像處理之演算時間過長及語音辨識之效度過低。導致現場之接受度未如預期,同時亦限制醫療自動化醫療研究成果對於社會之貢獻。

      核磁共振首次提供非侵入性準確測定新血管系統正常功能的方法,因其為非侵入性量測易被受測者接受且圖像清晰,因此為一甚具有發展潛力的診斷異常病變及建立預防性醫學之工具。核磁共振對於靜態器官診斷雖已取得廣泛的應用,但尚未普及於動態器官(如心血管系統)的診斷。動態器官取樣資訊量需遠大於靜態器官,而現有心內(外)膜邊界之演算法演算時間甚長,無法滿足即時處理動態器官之資訊量。

      就電腦輔助診斷系統之使用者而言,有效語音取檔為一甚受歡迎之功能仍甚為需要,唯一之要求為高辨識率及高穩定性。現有商用軟體對於語音取檔之績效,測試結果未達現場使用之要求。原因為商用產品發展之對象為非特定語者大量字彙,因而降低辨識率及穩定性。就電腦輔助診斷系統而言,發展一高辨識率之小眾少量字彙語音辨識演算法為一使電腦輔助診斷系統更具人性化之主要功能。

      因醫療自動化之演算法為工程研究者所研發,傳統上常偏向實驗室工程人員之觀點,未必能符合現場之需求而導致低接受度。本計畫之目的為以現場使用者之需求發展一發展一即時心室內外膜邊界檢測演算法及語音取檔演算法。如本計畫證實確實可行並為現場接受,不但可對傳統之研究典範建立一新的思考方向,研究之成果亦可直接有益於社會公眾。

  4. 整合語音辨識與合成的以歌選歌系統

    • 英文名稱: On the Integration of Speech Recognition/Synthesis into a Content-based Music Retrieval System
    • 計畫編號:
    • 主持人: 張智星、黃紹華
    • 補助單位: 清蔚科技
    • 計畫執行期間: 2000/8/1 to 2001/7/31
    • 關鍵詞: 語音辨識、語音合成、歌聲辨識、數位訊號處理、圖形辨識
    • 摘要簡介:

      由於電腦與網路科技的發達,智慧型人機介面的需求與應用層次也越來越廣泛。近年來,更由於sensor technology的進步,帶動了圖形辨識 (Pattern Recognition) 的實用化,因此,以辨識技術為基礎的智慧型人機介面也隨處可見,例如語音辨識、語音合成、手寫字辨識、歌聲辨識、名片辨識等。

      本計畫預計研究開發以歌選歌系統,並整合語音辨識與語音合成之技術,使開發出來的智慧型點歌系統,不但能接受使用者的歌聲輸入,並亦能接受語音訊號的輸入,而且系統本身具有語音合成之功能,能夠以語音回覆有趣之訊息,或以與因引導初學者如何使用這套系統。

  5. 清華大學「非同步引導式遠距教學系統」推動計畫

    • 英文名稱: Asynchronous Distance Learning Based on a Web Guiding System
    • 計畫編號:
    • 主持人: 王小川、黃一農、張智星、楊叔卿
    • 補助單位: 教育部
    • 計畫執行期間: 2000/1/1 to 2000/12/31
    • 關鍵詞: Web-based learning, asynchronous distance learning
    • 摘要簡介:
      近年,網際網路(Internet)不僅成為全世界最受歡迎的媒體,並成為國際間資訊競爭的利器。網際網路的應用已然成為衡量各國資訊競爭力的重要指標。透過VOD (Video on Demand) 和 HTML的引導式網頁教學方式,其無遠弗屆的功能,使得網路教學逐漸成為教學的配備與潮流,它不僅輔佐傳統教室現場教學,也能獨立建構為虛擬教室,使學生有多元的選擇學習機會,接觸資訊社會的學習環境。 使用VOD的好處是比較具真實性,透過Video,彷彿在教室上課一樣,老師授課的聲音影像等傳授方式都可立即感受到,此外,老師的教材也不需事先特別安排或處理,老師不僅可以像平時在教室中教學一樣,使用投影片,也可利用白板解說(如導數學公式等);但其缺點是需使用較高的頻寬,同時對於文字的解析度稍差。至於使用HTML的好處就是使用的頻寬較低,文字方面的解析能力也較令人滿意,尤其在學習上,比較容易反覆閱讀,不像用Video有連續播放的學習壓力。不過,使用HTML卻較易與老師有疏離感,不具真實性,老師也為了配合HTML的展現方式,需額外花時間與人力製作教材。最新的網路教學方式--引導式網頁教學,是綜合VOD和 HTML的技術,互補彼此的優缺點,授課教師將教材或錄影帶以網頁的形式放在網站上,學生可隨時透過網路閱讀教材,並參與討論,使得教師與學生有雙向溝通的機會。如此的學習方式,除可提供較多的多元化進修管道外,亦可提升教學品質,達到學術交流、資源共享的目的。預期將能更有效地提升傳統教學的效能,並擴大教育傳播的範疇及能力。十年樹木,百年樹人。教育環境的改進,影響深遠。藉由網路遠距教學環境的成立,我國NII政策鼓勵全民上網,教育部倡導「終身學習」,都可藉此宣揚與落實。

      本校自85年起即積極參與遠距教學計畫,網路教學相關技術與師資都在培養中,各類網路教學方式與成果都逐漸顯現,計算機中心不斷地提供改進各類技術支援,即將引進的新技術『引導式網路教學系統』,是國內各大學之首創,藉由它的幫助可讓教師更完整且清晰的傳達授課的內容,學生們也因而有更好的學習環境。此外,計算機中心還計畫提供更多的網路教學工具來協助老師嘗試。讓老師帶領學生一起迎向跨世紀的資訊新世代,在網路社會中建造創新且具挑戰的優勢。相關資料與成果可見本校首頁:http://www.nthu.edu.tw/ 及非同步教學首頁:http://sailnet.eden.nthu.edu.tw/。