歷年研究計畫概況

張智星


簡表

中文名稱 英文名稱 主持人 補助單位 計畫編號 補助金額 開始日期 結束日期
政府巨量資料分析工具與平台子:子計畫一. 巨量語音資料分析  Big Speech Data Analytics  張智星  科技部    4947298  2016/7/1  2017/6/30 
歌曲曲風分類器與情境分類器之研究  Research on Music Genre Classification and Scenario classification  張智星  工研院    500000  2016/4/1  2016/11/15 
用於音樂資訊檢索的深度學習  Deep Learning for Music Information Retrieval  張智星  科技部    2938000  2015/8/1  2018/7/31 
音訊指紋檢索與浮水印嵌入技術  Audio Fingerprinting & Audio Watermarking  張智星  中華電信    980000  2015/4/1  2016/3/31 
抗干擾的音訊資訊隱藏技術  Noise-robust Information Hiding for Audio Signals  張智星  資策會    600000  2015/1/1  2015/12/15 
Layout Sensitivity Model for NTO/CDU APC  Layout Sensitivity Model for NTO/CDU APC  張智星  台積電    900000  2014/5/15  2015/5/14 
大量媒體特徵資料庫比對搜尋技術  Matching and Retrieval Techniques for Large Multimedia Databases  張智星  資策會    800000  2014/2/1  2014/12/15 
晶圓缺陷樣式辨認及相似度分析  Wafer Failure Pattern Fingerprint and Similarity Detection  張智星  台積電    500000  2013/9/1  2014/8/31 
以GPU為運算核心之音樂檢索系統  GPU-based Music Information Retrieval Systems  張智星  國科會    795000  2013/8/1  2015/7/31 
自動內容辨識技術  Automatic Content Recognition Technology  張智星  資策會    800000  2013/2/1  2013/12/15 
從數位學習到智慧生活的整合研發計畫    張智星  國科會    1000000  2013/1/1  2015/11/30 
晶圓缺陷樣式辨認  Wafer Failure Pattern Fingerprint  張智星  台積電    740000  2013/1/1  2013/12/31 
口說台語評分系統之研究與實作    張智星  國科會    523000  2012/8/1  2013/7/31 
彩妝轉移的實作與探討    張智星  國科會、創意蘿蔔    900000  2012/6/1  2013/5/31 
音樂進階特徵抽取與人機互動技術  Technologies for Advanced Music Feature Extraction and Human–Computer Interaction  張智星  中華電信研究所    980000  2012/1/1  2012/12/31 
透過語音與關鍵字組的電視節目自動資料萃取方法    張智星  資策會    600000  2012/1/1  2012/12/15 
晶圓缺陷圖像之分析與辨識  Wafer Failure Pattern Recognition  張智星  台積電    600000  2011/9/1  2012/8/31 
分散式雲端中介軟體(E2子計畫:雲端應用佈署與管理系統)  Cloud Application Deployment and Management System  張智星  台達電    700000  2011/8/1  2014/7/31 
基於影像之臉部膚質分析與瑕疵修補  Image-based facial skin analysis and flaws covering  張智星  國科會、創意蘿蔔  NSC 100-2622-E-007 -007 -CC2  700000  2011/6/1  2012/5/31 
支援Cloud-aware嵌入式行動多核心平台--子計畫三:整合嵌入式系統與雲端計算的音樂與語音服務  Supporting voice/music services for mobile & cloud synergism  張智星  國科會  NSC 100-2219-E-007 -008  800000  2011/5/1  2013/4/30 
時間序列行為探勘技術  Temporal and Sequential Activity Mining  張智星  資策會    600000  2011/1/1  2011/12/31 
台語語音與文字多面向語料庫之建置及其在台語計算語言學之應用--口說台語評分系統之研究與實作  Corpus Collection for Taiwanese Texts and Speech with Applications to Taiwanese Computational Linguistics - The Research and Development of Spoken Taiwanese Scoring Systems  張智星  國科會  99-2221-E-007-049-MY3  600000  2010/8/1  2013/7/31 
基於模式識別方法進行電器耗能特徵分析  On the Use of Pattern Recognition Methods for Household Appliance Modeling Based on Readings of Electricity Meters  張智星  資策會    600000  2010/3/1  2010/12/31 
哼唱搜尋技術  Techniques for Query by Singing/Humming  張智星  資策會    660000  2010/2/1  2010/12/31 
適用於嵌入式系統的電腦輔助口說華語發音練習系統    張智星  國科會 & 鈦思科技    403000  2009/11/1  2010/10/31 
用於音訊音樂的計算聽覺場景分析(3/3)  Computational Auditory Scene Analysis for Audio Music  張智星  國科會  NSC 96-2628-E-007 -141 -MY3  521000  2009/8/1  2010/7/31 
台灣自主處理器Android平台深耕計畫    李政崑  經濟部學研計畫    800000  2009/6/1  2010/5/31 
唱作俱佳有聲書電子公仔計畫    金仲達  經濟部學研計畫    800000  2009/6/1  2010/5/31 
以語者辨識為基礎之智慧型人機介面  Intelligent Man-machine Interface based on Speaker Recognition  張智星  資策會    600000  2009/3/1  2009/12/31 
從語音對話進行情緒辨識  Emotion Detection from Spoken Dialog  張智星  資策會    800000  2009/3/1  2009/12/31 
嵌入式多核心編譯器與應用軟體平台研發計畫    李政崑  清華大學    1940000  2009/3/1  2010/12/31 
嵌入式異多核心系統技術研發3年計畫(第2期)    張智星  經濟部科專計畫    600000  2008/11/1  2010/10/31 
Intel聯合研發計畫    張智星  Intel    600000  2008/8/1  2009/7/31 
用於音訊音樂的計算聽覺場景分析(2/3)  Computational Auditory Scene Analysis for Audio Music  張智星  國科會  NSC 96-2628-E-007 -141 -MY3  521000  2008/8/1  2009/7/31 
聯發科嵌入式系統技術研究及人才培育計畫(第四子計畫:視訊及語音應用開發)    張智星  聯發科    600000  2008/8/1  2009/7/31 
Tri-tone的連續聲調塑模及偵錯技術  Tri-tone Based Continuous Tone Modeling and Analysis  張智星  資策會    600000  2008/3/1  2008/11/30 
語音辨識系統開發    張智星  中科院    800000  2008/2/1  2008/11/30 
用於音訊音樂的計算聽覺場景分析(1/3)  Computational Auditory Scene Analysis for Audio Music  張智星  國科會  NSC 96-2628-E-007 -141 -MY3  521000  2007/8/1  2008/7/31 
華語文互動語音教學技術研發  Speech-based Dialog Technologies for Learning Mandarin Chinese  張智星  資策會    500000  2007/5/1  2007/12/31 
以語音辨識及合成為基礎的口說華語文電腦輔助學習系統  A Spoken Mandarin Learning System Based on Speech Recognition and Synthesis  張智星  國科會  95-3113-S-007-001-  1494000  2006/12/1  2007/11/30 
聽寫系統之語者調適技術  Speaker Adaptation for an Embedded Dictation System  張智星  賽微科技    500000  2006/11/1  2007/10/31 
音樂搜尋的加速與辨識率提升,及其在嵌入式系統的實作與應用(3/3)  Speedup Mechansim and Performance Enhancement for Music Information Retrieval, with Applications to Embedded Systems  張智星  國科會  95-2221-E-007-220-  662000  2006/8/1  2007/7/31 
PDA中文語音合成系統  Chinese TTS for PDA  張智星  微星科技    1000000  2006/7/1  2007/6/30 
強健性關鍵詞語音辨識  Robust Keyword Spotting  張智星  微星科技    1000000  2006/7/1  2007/6/30 
手持式裝置的口說中文輔助學習技術  Computer-assisted Spoken Chinese Learning Systems for Hand-held Device  張智星  資策會    500000  2006/3/1  2006/12/31 
台灣數位有聲書網之建置與推廣  The Development and Promotion of the Web Portal for Digital Talking Books in Taiwan  張智星、唐傳義、陳宜欣  國科會  NSC 95-2422-H-007 -001  1368140  2006/3/1  2007/2/28 
音樂搜尋的加速與辨識率提升,及其在嵌入式系統的實作與應用(2/3)  Speedup Mechansim and Performance Enhancement for Music Information Retrieval, with Applications to Embedded Systems  張智星  國科會  NSC 93-2213-E-007-058  695000  2005/8/1  2006/7/31 
利用台灣現有視障用數位典藏資料製作盲人電子書-發展DAISY中文播放器及相關之語音辨識與合成功能(子計畫二)  On the Development of DAISY Chinese Player with Speech-enabled Interface Based on Speech Recognition and Synthesis  張智星  國科會  NSC 94-2422-H-007-005  919600  2005/3/1  2006/2/28 
多模式音樂檢索的加速方法  Speedup Mechanisms for Multi-modal Music Information Retrieval  張智星  國科會、清蔚科技  NSC 93-2622-E-007-012-CC3  327000  2004/11/1  2005/10/31 
台灣視障用數位典藏之語音檢索系統  Speech-based Information Retrieval for the Blind by Digital Archives in Taiwan  唐傳義、張智星  國科會    1000000  2004/8/1  2005/4/30 
音樂搜尋的加速與辨識率提升,及其在嵌入式系統的實作與應用(1/3)  Speedup Mechansim and Performance Enhancement for Music Information Retrieval, with Applications to Embedded Systems  張智星  國科會  NSC 93-2213-E-007-058  695000  2004/8/1  2005/7/31 
應用於數位教材的語音檢索與語者確認  On the Use of Speech-based Retrieval and Speaker Verification for Digital Courseware  張智星  統信企業管理顧問    500000  2004/3/1  2004/10/31 
大型音樂檢索系統的理論與實作(3/3)  Large-scale Music Information Retrieval System: Theory and Implementation(3/3)  張智星  國科會  NSC 90-2213-E-007-058  882300  2003/8/1  2004/7/31 
音樂檢索的加速方法  Methods for Efficient Music Retrieval  張智星  國科會、清蔚科技    500000  2003/6/1  2004/5/31 
音訊技術研究  Studies on Audio Technology  鄭士康、賴飛羆、張智星、蘇文鈺  凌陽科技    800000  2002/9/1  2003/8/31 
大型音樂檢索系統的理論與實作(2/3)  Large-scale Music Information Retrieval System: Theory and Implementation(2/3)  張智星  國科會  NSC 90-2213-E-007-058  772300  2002/8/1  2003/7/31 
音樂檢索的加速方法  Methods for Efficient Music Retrieval  張智星  國科會、清蔚科技    500000  2002/6/1  2003/5/31 
語音訊號處理與辨識的軟硬體實作與整合  Audio Signal Processing and Recognition: Software/Hardware Implementation and Integration  張智星  鈦思科技    800000  2002/1/1  2002/12/31 
大型音樂檢索系統的理論與實作(1/3)  Large-scale Music Information Retrieval System: Theory and Implementation(1/3)  張智星  國科會  NSC 90-2213-E-007-058  652300  2001/8/1  2002/7/31 
語音與歌聲合成  Speech and Singing Voice Synthesis  張智星、黃紹華  清蔚科技    600000  2001/8/1  2002/7/31 
語音與音樂訊號的比對方法與加速機制  Music/Speech Information Retrieval and Their Speedup Mechanisms  張智星  清蔚科技    600000  2001/5/1  2002/7/31 
以內容為主的多媒體檢索系統 ─ 由軟體到硬體的快速雛形與發展環境  A Fast Prototyping Environment for Content-based Multimedia Information Retrieval  張智星  鈦思科技    800000  2000/12/1  2001/12/31 
音樂檢索技術的加速與改良  Efficient and Effective Techniques in Music Information Retrieval  張智星  清蔚科技      2000/9/1  2001/8/31 
現有影像/語音處理研究典範於醫療自動化之缺失與改進 - 以核磁共振醫療輔助診斷系統之影像處理即時化及輸入語音化為案例  On-line Image Processing and Voice Activation in Magnetic Resonance Computer-Aided Diagnosis: A Strategy for Overcoming the Limitations in State of the Art Signal Processing Techniques  傅家啟、彭振興、張智星  國科會      2000/8/1  2001/7/31 
整合語音辨識與合成的以歌選歌系統  On the Integration of Speech Recognition/Synthesis into a Content-based Music Retrieval System  張智星、黃紹華  清蔚科技      2000/8/1  2001/7/31 
清華大學「非同步引導式遠距教學系統」推動計畫  Asynchronous Distance Learning Based on a Web Guiding System  王小川、黃一農、張智星、楊叔卿  教育部      2000/1/1  2000/12/31 
以聲紋與人臉為主的生物認証系統  Biometric Identification System Based on Face and Voice  張智星  伍豐科技      1999/10/1  2000/7/31 
直流變頻空調機控制策略發展  Design and developments of the control strategy for a DC variable-frequency air conditioner  張智星  工研院能資所      1999/10/1  2000/10/31 
神經模糊系統的誤差預估與結構辨識  Error Estimation and Structure Identification of Neuro-fuzzy Systems  張智星  國科會  NSC 89-2213-E-007-067    1999/8/1  2000/7/31 
新聞分類與文件摘要技術開發  Classification and Summarization for On-line News  張智星  太一信通      1999/8/1  2000/7/31 
跳頻網台分析  The analysis of radio communication networks  張智星  中科院      1999/7/1  2001/6/30 
有聲電子圖書館的自動化技術與工具  A Study of Techniques and Tools for Audio/Textual Digital Library  張俊盛、唐傳義、張智星  國科會      1998/8/1  1999/7/1 
軟式計算中的誤差預估與結構辨識  Error Estimation and Structure Identification in Soft Computing  張智星  國科會  NSC88-2213-E-007-007    1998/8/1  1999/7/1 
無線電網台分析  The Analysis of Radio Communication Networks  張智星  中科院      1998/8/1  1999/7/1 
網站檢索搜尋引擎與網路即時新聞服務  Web Search Engines and On-line News Service and Technology  張智星  太一信通      1998/7/1   
網路即時新聞服務的技術開發  Web On-line News Service and Technology  張智星、張俊盛  太一信通      1998/3/1  1998/7/1 
清蔚園網路書院發展計畫  Cyber University  黃一農、楊叔卿、張智星  教育部      1998/1/1  1998/7/1 
分散式多伺服器隨意視訊系統(III)(子計劃三) 智慧型查詢系統 (以歌選歌)  An Intelligent Interface of Query by Singing in VOD (Video on Deman)  張智星  國科會  NSC87-2213-E-007-013    1997/8/1  1998/7/1 
軟式計算在資料模型化的應用  Soft Computing in Data Modeling  張智星  國科會  NSC87-2213-E-007-009    1997/8/1  1998/7/1 
語者辨認  Speaker Recognition  張智星  國科會  NSC 86-2213-E-007-048    1996/8/1  1997/7/31 

詳細資料

  1. 政府巨量資料分析工具與平台子:子計畫一. 巨量語音資料分析

    • 英文名稱: Big Speech Data Analytics
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 科技部
    • 計畫執行期間: 2016/7/1 to 2017/6/30
    • 關鍵詞:
    • 摘要簡介:
      本計畫之研發重點為「客服語音資料分析」(speech analytics at call centers),這是一個目前很熱門的研究課題,主要目標是經由客服中心的錄音,紀錄客服人員和顧客的對話過程,並經由此大量資料的分析,來提高客戶服務的效率,並增進客戶對此服務的滿意度。

  2. 歌曲曲風分類器與情境分類器之研究

    • 英文名稱: Research on Music Genre Classification and Scenario classification
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 工研院
    • 計畫執行期間: 2016/4/1 to 2016/11/15
    • 關鍵詞:
    • 摘要簡介:
      以機器學習演算法結合音訊特徵建立歌曲曲風與情境分類器,能藉此強化線上音樂串流推薦功能,引導使用者聆聽更多元曲風,提高使用者黏著度。然機器學習應用在音訊分析上的複雜度非常高,藉由此合作計畫,結合該領域專家學者,加速計畫執行的速度,並提高分類器準確度。

  3. 用於音樂資訊檢索的深度學習

    • 英文名稱: Deep Learning for Music Information Retrieval
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 科技部
    • 計畫執行期間: 2015/8/1 to 2018/7/31
    • 關鍵詞:
    • 摘要簡介:
      隨著電腦計算能力的快速推進(歸功於 CPU 及 GPU 的共同運作)、記憶體的大量使用,以及機器學習的方法演進,深度學習的神經網路(deep-learning neural networks)已經被成功地用在大量影像及語音的辨識,其正確率已經大幅超越傳統的辨識方法,同時也掀起了一股新的研究及應用熱潮。本計畫將探討深度學習如何用於音樂資訊檢索的各項基本工作,主要包含複音音訊音樂的人聲主旋律抽取(vocal melody extraction from polyphonic audio music)、曲風分類(genre classification)、情緒分類(mood classification)、翻唱歌偵測(cover song identification)、音訊聲紋辨識(audio fingerprinting)、哼唱選歌(query by singing/humming)、節拍追蹤(beat tracking)等。往年我們參加 MIREX 比賽的這些相關評比,都得到很傑出的成績,但是若要再精進,似乎有一個玻璃天花板門檻,在這個計畫中,我們將使用各種不同的深度學習方式(包含各種神經網路的架構、學習法、GPU 的實現等),嘗試突破這個玻璃天花板門檻,第一年將以「複音音訊音樂的人聲主旋律抽取」為主;第二年的目標則是「曲風及情緒分類」;第三年的目標則是「音訊聲紋辨 識及翻唱歌偵測」。

  4. 音訊指紋檢索與浮水印嵌入技術

    • 英文名稱: Audio Fingerprinting & Audio Watermarking
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 中華電信
    • 計畫執行期間: 2015/4/1 to 2016/3/31
    • 關鍵詞:
    • 摘要簡介:
      本計劃將以音訊特徵辨識技術,以及音訊浮水印嵌入技術,對現有影音服務之品質進行提升。在音訊特徵辨識技術方面,將透過索引雜湊技術的改良,並引進GPU等平行技術的支援,以快速地對大量媒體資料進行處理,以期達到系統資源運用的最佳化,以及降低用戶送出查詢後的等待時間。對於音訊浮水印嵌入技術,則可在人耳無法察覺的條件下,將訊息隱藏於音訊中,該訊息可用於音訊之相關資訊、廣告傳播,增加原音訊之附加價值,另也可用於數位資料著作權之管理。

  5. 抗干擾的音訊資訊隱藏技術

    • 英文名稱: Noise-robust Information Hiding for Audio Signals
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2015/1/1 to 2015/12/15
    • 關鍵詞: 資訊隱藏、音訊處理、音訊浮水印
    • 摘要簡介:
      本計畫將開發抗干擾的音訊資訊隱藏演算法,可將特定資訊(如影片ID、產品網址等)事先嵌入音訊之中,而且這些隱藏的資訊並不會讓音訊失真,聽其來應該和原來的音訊一樣。音訊播放時,在附近的使用者可用手機等手持式裝置在短時間內讀出隱藏其中的資訊,例如短網址等,並可立即在手機上顯示或執行。由於所有的計算都在前台完成,所以我們可以減少後台伺服器的負荷,非常適合大量使用者使用。

  6. Layout Sensitivity Model for NTO/CDU APC

    • 英文名稱: Layout Sensitivity Model for NTO/CDU APC
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 台積電
    • 計畫執行期間: 2014/5/15 to 2015/5/14
    • 關鍵詞:
    • 摘要簡介:
      Loading effect is the process result deviation from layout difference. Different layout could have CD , topography , depth or other geometrical difference according to fab mass production experience. By current practice, routine and tedious manual check would be conducted for a new release product at every critical stage to avoid process deviation induced yield loss or device target offset. For example, line bridging due to etch CD bias difference from loading effect, or device target offset due to iso and dense area. With local layout information such as pattern density or line end density as an input to engineer, high risk area and corresponding process stages shall be identified in advance by machine-learning models proposed in this project.

  7. 大量媒體特徵資料庫比對搜尋技術

    • 英文名稱: Matching and Retrieval Techniques for Large Multimedia Databases
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2014/2/1 to 2014/12/15
    • 關鍵詞:
    • 摘要簡介:
      本計畫擬基於去年「自動內容辨識技術」之成果,並引進GPU等平行技術的支援,以快速地對大量媒體資料進行處理。為了達到使用者在看電視節目或其他媒體內容的同時,智慧行動裝置同時可以啟動相關的TV App,故而我們需要建構一個內容自動辨識引擎。本計畫目標是研發辨識引擎中的聲紋特徵值萃取演算法以及聲紋比對演算法,並以GPU等平行技術進行加速比對,以處理隨選視訊等服務中的大量節目資料。

  8. 晶圓缺陷樣式辨認及相似度分析

    • 英文名稱: Wafer Failure Pattern Fingerprint and Similarity Detection
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 台積電
    • 計畫執行期間: 2013/9/1 to 2014/8/31
    • 關鍵詞:
    • 摘要簡介:
      The objectives and scope of the project are:
      1. Develop and integrate a robust similar wafer detection methodology into wafer fingerprint kernel for CP/WAT failure diagnosis infrastructure.
      2. Enhance the stability, consistency and aaccuracy of failure pattern recognition system.
      3. Architecture design and prototyping for automation.

  9. 以GPU為運算核心之音樂檢索系統

    • 英文名稱: GPU-based Music Information Retrieval Systems
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2013/8/1 to 2015/7/31
    • 關鍵詞:
    • 摘要簡介:
      GPU在各種科學計算的重要性,已經不言可喻,近期最顯著的範例,是大陸天河一號A結合了7,168顆NVIDIA Tesla? M2050 GPU和14,336顆CPU,創下高達2.507 petaflops的全新效能紀錄,在2010年6月Top500超級電腦排名拿到全世界第一名。本計畫將以GPU為主要運算核心,來實作兩種音樂檢索的典型,包含「哼唱選歌」(query by singing/humming)和「音訊指紋」(audio fingerprinting),並探討在不同的比對策略下,如何使GPU+CPU的架構達到最好的效能。同時我們將使用機器學習的方法,尋新的比對方法,同時在大量資料中學習最好的比對策略。我們期望能夠使用低廉的硬體及較低的耗電量,就能進行大量音樂的比對(「哼唱比對」能夠在5秒內比對5萬首歌,「聲音指紋」能夠在五秒內比對20萬首歌),並能夠有符合世界水準的辨識率(以MIREX比賽為比較基準),以推進國內相關技術與應用的水準。

  10. 自動內容辨識技術

    • 英文名稱: Automatic Content Recognition Technology
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2013/2/1 to 2013/12/15
    • 關鍵詞:
    • 摘要簡介:
      隨著手持智慧裝置的普及,很多觀眾看電視時,都會同時使用智慧行動裝置以導入相關資訊,促成相關App(智慧行動裝置上之應用程式)的興起。目前的App大多需要觀眾自行開?該程式,且觀眾轉台時,App 並不會跟著自動轉台。而為達到讓使用者在看電視節目的同時,App 能跟著自動轉台,甚至智慧行動裝置(i.e. Smart Phone, xPad)本身同時可以啟動相關的TV App,所以我們需要建構一個電視內容自動辨識引擎。因此,本計畫目標是研發辨識引擎中的聲紋特徵值萃取演算法,以及聲紋比對演算法。

  11. 從數位學習到智慧生活的整合研發計畫

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2013/1/1 to 2015/11/30
    • 關鍵詞:
    • 摘要簡介:
      本計畫嘗試整合各計畫主持人的專長,累積過去的開發能量,結合廠商實際需求,開發新一代的語音助理整合介面。整合台大張智星教授長期在語音方面的專長,透過其不同語言的語音辨識關鍵詞擷取(Keyword-Spotting),以及旋律辨識,結合許聞廉特聘研究員長期在自然語言理解的深入研究與資策會在不同裝置間的個人化學習技術,整合開發新一代的語音助理,以期為台灣的業者(目前洽談中包括鴻海科技,遠見科技,賽微科技/Cyberon,...等)諸多廠商,提供一個完整的整合語音助理平台。

  12. 晶圓缺陷樣式辨認

    • 英文名稱: Wafer Failure Pattern Fingerprint
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 台積電
    • 計畫執行期間: 2013/1/1 to 2013/12/31
    • 關鍵詞:
    • 摘要簡介:
      Failure analysis is the process of analyzing and interpreting wafer data to identify the root cause of a failure. This module plays a pivotal role in enhancing the wafer yield. To ensure that the failure analyzer delivers meaningful results, a robust wafer failure pattern recognition platform with efficient similarity wafer ranking should be available. Wafer failure pattern recognition, a first step in the direction, is meant to detect and recognize the appropriate failure lots/wafers which can be used for failure correlation during the analysis stage. Wafer pattern similarity is the next milestone in the path leading to failure analysis. Failure pattern Similarity ranking assists in performing failure analysis with a higher degree of consistency. A logical inference with respect to suspected tools is possible only when the failure pattern recognition is equipped with pattern similarity ranking. In this proposal, we plan to build up a computer aided tool to simplify and speed up the pattern similarity ranking and recognition instead of manual check CP/WAT failure map by eyeball view, and enhance both high engineering efficiency and effectiveness.

  13. 口說台語評分系統之研究與實作

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2012/8/1 to 2013/7/31
    • 關鍵詞:
    • 摘要簡介:
      本計畫的研發目標,是要完成一個完整的台語CAPT(電腦輔助發音訓練,computer assisted pronunciation training)系統,所使用的評分參數包含音色、音調/音高、音量/能量、音長/韻律等,同時我們也將探討相關的研究議題,例如如何自動進行混淆音的偵測、如何結合強制對位(forced alignment)及自由音節解碼(free syllable decoding)來得到穩定的評分分數、如何進行台語聲調辨識,以及如何調整這些評分參數的權重,以便能夠逼近老師所給的實際分數等等。此系統必須能夠計算每一個詞彙及每一個音素的分數,並顯示相關的混淆音,同時給予發音改進的建議,讓使用者能夠反覆練習,加強自己口說台語的正確發音。「電腦輔助發音訓練與評分」是語音辨識的一個新興研究與應用領域,相關的文獻與報告日漸豐富,軟體應用也越來越多,但仍未見與台語相關的應用。我們在先前的產業合作計畫中,已經陸續完成了「華語語音評分」、「英語語音評分」、「日語語音評分」等系統,而且也進行相關的技術轉移及商品化,研發及產業合作的經驗相當豐富。在此計畫中,我們希望結合並引用其他子計畫主持人在台語語言處理的多年研究成果,實際產出一個接近市場需求的「電腦輔助台語發音評分系統」,因此此計畫的使命除了在於能夠以語音科技來促進數位學習產業升級外,更具有本土文化推廣的深一層意義。

  14. 彩妝轉移的實作與探討

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會、創意蘿蔔
    • 計畫執行期間: 2012/6/1 to 2013/5/31
    • 關鍵詞:
    • 摘要簡介:
      本報告內容簡述此計畫對於自動彩妝的應用,目前的發展進度與成果。本計畫聚焦在應用於智慧型平台上的自動眼線追蹤,因為眼線是重要的人臉特徵,在化妝時若有畫上眼線往往會有畫龍點睛的效果,所以本計畫將優先探討眼線追蹤技術。在研究方法上則分為二個部分,一是人臉偵測與眼睛偵測,另一則是眼線追蹤。在資料收集上,我們的資料庫收集了179張臉部照片,並人工標記眼線位置。實驗結果顯示,眼線追蹤的成功率超過90%。最後我們也成功開發了一個可以用於Android平台的APP,證實了自動眼線追蹤應用在智慧型平台的可行性。

  15. 音樂進階特徵抽取與人機互動技術

    • 英文名稱: Technologies for Advanced Music Feature Extraction and Human–Computer Interaction
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 中華電信研究所
    • 計畫執行期間: 2012/1/1 to 2012/12/31
    • 關鍵詞: 哼唱選歌、歌聲評分、曲風分類、節拍追蹤、音訊音樂的音高追蹤
    • 摘要簡介:
      本計劃旨在整合音樂進階特徵的抽取,並與歌唱辨識技術與歌唱評分技術做結合,實現基於此所產生的人機互動系統。在歌唱辨識系統方面,首先必須進行進階音樂特徵的抽取以建立音樂資料庫, 對於欲建立資料庫的MP3/MIDI音樂檔,採用「偵測歌聲片段」技術標註歌曲中有人聲的片段,進以使用「歌唱主旋律抽取技術」來切割混雜著音樂與人聲的片段,並將其中的人聲旋律抽取出來,以提供後續的歌唱辨識系統使用;在前端部份,對於輸入的人聲音檔,採用「強健性歌唱辨識比對技術」,此技術可將輸入的人聲音檔與音樂資料庫做比對,並回傳比對結果做進一步的應用。對於「歌唱評分技術」而言,將使用前述相關音樂進階特徵技術,達成抽取音樂MV之主旋律的目的,並對使用者所輸入之歌唱訊號進行評分的工作,增加人機互動的發展。

  16. 透過語音與關鍵字組的電視節目自動資料萃取方法

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2012/1/1 to 2012/12/15
    • 關鍵詞:
    • 摘要簡介:
      所謂語音文件檢索,是能接受使用者的語音查詢,來對資料庫中的文件進行檢索。於語音辨識的部分,常用的方法有關鍵詞萃取,以及自由音節解碼等等。而在檢索部分,對於資料庫是文字或語音的型態,也有不同的方法:若是文字型態,則透過斷詞的方式,將經常出現的詞彙定義為關鍵字;而若是語音型態,則要先轉換為文字,以加速使用時的速度。關於關鍵詞萃取,首先是辨識語句當中,是否存在特定的關鍵字;若有,則將語句中包含關鍵詞的部分萃取出來。一般會在特定任務(Task)下,對任務選取若干個關鍵詞,在辨識時只要將關鍵詞萃取出來,而不管其它部分。因應任務的不同,關鍵詞的定義也就不同,而所搭配的無關詞模型也很可能就不同。一個好的關鍵詞萃取系統必須達到人性化的要求,讓使用者任意地運用在某些任務中,說出使用者想要講的語句,不能加以限制。關鍵詞萃取系統中的辨識網路基本上是由關鍵詞網路和無關詞網路兩大部分所組合而成,我們可以依據情境的需求,事先定義好關鍵詞彙,並與無關詞的部分做恰當的組合。而在辨識時,通常可採用連續語音辨識技術來進行聲學層次的辨識。最常採用的技術是維特比搜尋法,能夠同時對語音信號作音節的切割與辨識,相當適合應用在即時系統。

  17. 晶圓缺陷圖像之分析與辨識

    • 英文名稱: Wafer Failure Pattern Recognition
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 台積電
    • 計畫執行期間: 2011/9/1 to 2012/8/31
    • 關鍵詞: 晶圓缺陷分析、樣式辨認、機器學習、影像處理、學習排序
    • 摘要簡介:
      晶圓在經過各式各樣的製程後,會由於機台的狀況而產生不同的缺陷圖形,本計畫嘗試使用各種不同的方法(包含影像處理、機器學習、樣式辨認、學習排序等)來分析晶圓的缺陷圖像,並對晶圓缺陷圖像進行分類,企圖進一步找出導致缺陷的機台故障原因。

      Failure analysis is the process of collecting and analyzing data to determine the cause of a failure. It is an important discipline in many branches of manufacturing industry. Wafer failure pattern recognition is the first data mining step to detect the failure lots/wafers for failure correlation. Pattern recognition is generally categorized according to the type of learning procedure used to generate the recognition result. In this proposal, we will build up one computer aided tool to simplify and speed up the pattern recognition instead of manual check CP/WAT failure map by eyeball view, and enhance both high engineering efficiency and effectiveness.

  18. 分散式雲端中介軟體(E2子計畫:雲端應用佈署與管理系統)

    • 英文名稱: Cloud Application Deployment and Management System
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 台達電
    • 計畫執行期間: 2011/8/1 to 2014/7/31
    • 關鍵詞:
    • 摘要簡介:

  19. 基於影像之臉部膚質分析與瑕疵修補

    • 英文名稱: Image-based facial skin analysis and flaws covering
    • 計畫編號: NSC 100-2622-E-007 -007 -CC2
    • 主持人: 張智星
    • 補助單位: 國科會、創意蘿蔔
    • 計畫執行期間: 2011/6/1 to 2012/5/31
    • 關鍵詞: 膚質分析、瑕疵修補、材質分析、材質合成
    • 摘要簡介:
      現代人普遍渴望變得更美麗,也喜歡用鏡頭來記錄美的事物。本計畫的目標,要開發一個整合性的膚質分析與瑕疵修補系統,並移植到嵌入式平台上(例如智慧型手機),對於沒有化妝的使用者而言,可以方便的監控與管理自己臉部肌膚的健康,對於有化妝的使用者而言,可以快速檢測妝是否發生不均勻的情況。對於喜歡自拍的使用者,可以自動對臉上的瑕疵進行修補。因此,我們將用材質分析的方法來辨識臉上的各種瑕疵特徵(包含皺紋、痘痘、粉刺),以及分析肌膚的光滑度,最後再將瑕疵區域用材質合成的方法進行修補。然而坊間許多相機已內建美膚模式,雖然可以修掉部分瑕疵,但是許多非瑕疵區域的細節可能也會被模糊掉,而本計畫只針對瑕疵區域進行修補的方法相信將可達到更好的效果。我們希望經由本計畫,實際開發出一個適用於嵌入式平台的辨識核心,再推廣到業界,由於智慧型手機是未來的趨勢,我們期許能為使用者帶來更方便的服務。

  20. 支援Cloud-aware嵌入式行動多核心平台--子計畫三:整合嵌入式系統與雲端計算的音樂與語音服務

    • 英文名稱: Supporting voice/music services for mobile & cloud synergism
    • 計畫編號: NSC 100-2219-E-007 -008
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2011/5/1 to 2013/4/30
    • 關鍵詞: 語音辨識、哼唱檢索、敲擊檢索、曲風分類、雲端運算、平行處理
    • 摘要簡介:

      隨著無線網路以及行動裝置播放音樂功能的普及,使音樂與語音服務成為 行動加值的基本應用之一,而提供服務的形式亦日趨多元,在語音方面,不管 是利用行動裝置搜尋網路上的關鍵字或是編寫手機簡訊,人們希望可以利用語 音輸入取代行動裝置的按鍵輸入,對於這項應用,語音辨識的速度及準確性則 至關重要;在音樂方面,與實體音樂CD相較,人們更希望能隨時隨地找到最想 聽到的音樂。因此,我們希望建構一個有效率的系統,可以在行動裝置上透過 各種檢索方式搜尋上萬首的歌曲資料庫,找到使用者想聽的音樂,再加上如節 奏、曲風等特徵的輔助,推薦使用者可能會喜歡的曲目,以滿足使用者個人喜 好。

      本計畫擬利用行動多核心平台發展音樂與語音相關之應用服務,使用者可 透過各種方式搜尋音樂,如藉由哼唱音樂的片段、語音輸入歌名、情緒或敲擊 節奏進行搜尋。首先由手持式裝置對輸入的音訊進行前端處理以取得音訊特 徵,之後利用雲端技術在伺服端進行資料庫比對,同時搜尋相近曲風的歌曲推 薦給使用者,最後將所有資訊回送至用戶端並呈現給使用者。此架構避免了直 接在前端裝置上進行比對的龐大運算量以及資料庫的儲存空間,因此可以適用 於大部分的手持式裝置,此外,有鑑於抽取某些音訊特徵的運算量對於手持式 裝置的負擔仍太重,因此利用多核心系統進行平行處理,預期可大幅改善計算 所需的時間,加速整體處理的速度,增進應用服務的價值。研究的工作項目如 下:

      1. 建立多重特徵辨識的音樂搜尋系統
      2. 蒐集做為辨識用途的音樂及語料
      3. 實作個人化音樂推薦系統
      4. 整合系統並實作於多核心嵌入式平台
      5. 測試及評估應用服務於雲端運算的效能

  21. 時間序列行為探勘技術

    • 英文名稱: Temporal and Sequential Activity Mining
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2011/1/1 to 2011/12/31
    • 關鍵詞: 使用者意圖分析、群體行為預測、序列行為分析
    • 摘要簡介:
      本合作研究計畫預計發展出時間序列行為探勘和預測模組,用以輔助科專計畫「Interactive Consumer Intention Analysis Engine」分析並預測使用者意圖(或行為)。在分析使用者意圖或行為方面,我們會先蒐集(1)群體行為資料(如部落客在社群網站分享的心得)及(2)個人行為資料(如消費者個人偏好),並利用資料探勘技術(如N維時間序列行為探勘技術)分析出群體/個人行為模式,並開發出時間序列行為預測模組,以輔助本體計畫作為未來預測使用者意圖或行為之應用。

  22. 台語語音與文字多面向語料庫之建置及其在台語計算語言學之應用--口說台語評分系統之研究與實作

    • 英文名稱: Corpus Collection for Taiwanese Texts and Speech with Applications to Taiwanese Computational Linguistics - The Research and Development of Spoken Taiwanese Scoring Systems
    • 計畫編號: 99-2221-E-007-049-MY3
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2010/8/1 to 2013/7/31
    • 關鍵詞: 電腦輔助發音訓練、電腦輔助語言學習、語音辨識、語音評分、聲調辨識
    • 摘要簡介:
      本計畫的研發目標,是要完成一個完整的台語CAPT(電腦輔助發音訓練,computer assisted pronunciation training)系統,所使用的評分參數包含音色、音調/音高、音量/能量、音長/韻律等,同時我們也將探討相關的研究議題,例如如何自動進行混淆音的偵測、如何結合強制對位(forced alignment)及自由音節解碼(free syllable decoding)來得到穩定的評分分數、如何進行台語聲調辨識,以及如何調整這些評分參數的權重,以便能夠逼近老師所給的實際分數等等。此系統必須能夠計算每一個詞彙及每一個音素的分數,並顯示相關的混淆音,同時給予發音改進的建議,讓使用者能夠反覆練習,加強自己口說台語的正確發音。「電腦輔助發音訓練與評分」是語音辨識的一個新興研究與應用領域,相關的文獻與報告日漸豐富,軟體應用也越來越多,但仍未見與台語相關的應用。我們在先前的產業合作計畫中,已經陸續完成了「華語語音評分」、「英語語音評分」、「日語語音評分」等系統,而且也進行相關的技術轉移及商品化,研發及產業合作的經驗相當豐富。在此計畫中,我們希望結合並引用其他子計畫主持人在台語語言處理的多年研究成果,實際產出一個接近市場需求的「電腦輔助台語發音評分系統」,因此此計畫的使命除了在於能夠以語音科技來促進數位學習產業升級外,更具有本土文化推廣的深一層意義。

  23. 基於模式識別方法進行電器耗能特徵分析

    • 英文名稱: On the Use of Pattern Recognition Methods for Household Appliance Modeling Based on Readings of Electricity Meters
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2010/3/1 to 2010/12/31
    • 關鍵詞: 無線感測網路應用系統、模型識別、機器學習、特徵擷取、訊號處理
    • 摘要簡介:
      本計畫主要探討感測網路應用系統上一項重要的議題:「如何處理混合式感測資料」以及「如何分析感測資料傳達的資訊」。由於感測網路所佈建的感測元件之間連結方式不同,感測元件所掃瞄到的資料可能包含多種不同發送端的資訊,造成感測元件接收到的資訊相當複雜,因此可能遭遇監測對象難以分析其行為之問題。例如,以一般家庭的用電量量測為例,因為電表記錄了電力公司輸入到此家庭的總用電功率,雖然當用電時,可看到儀表不停轉動,可是多種電器同時運轉時,卻無法得知各個電器的用電情形。如果能針對這些資料進行分析,將能夠瞭解各個電器的個別運作況狀,例如是否正在工作或是處在待機狀態,因此如何分析混合大量不同來源的感測資料是一項重要的議題。 本計畫將針對家庭用電情形進行分析,瞭解電力計的波形變化對應電器運作的關係。
      本計畫中所研發之技術將撰寫成報告與提供分析大量感測網路資料的測試數據,提供資策會在開發其他感測網路應用系統資料分析判讀之參考。所研發之技術將申請一項專利,並投稿二篇相關論文。

  24. 哼唱搜尋技術

    • 英文名稱: Techniques for Query by Singing/Humming
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2010/2/1 to 2010/12/31
    • 關鍵詞: 語音辨識、語音搜尋、旋律辨識、哼唱搜尋
    • 摘要簡介:
      本合作研究計畫擬引入哼唱搜尋技術,用以搭配明星或文創造型之電子公仔。使用者可透過語音輸入音樂或配樂的片段,由系統對使用者的聲音進行前端處理,取得聲音特徵後,透過歌曲主旋律資料庫尋找並辨識出對應的歌曲,再將對應之音樂或配樂檔案,搭配語音指令技術,回送至電子公仔和電腦螢幕傳達給使用者,或者送給使用者指定的朋友,以增加電子公仔的娛樂性及互動性。

  25. 適用於嵌入式系統的電腦輔助口說華語發音練習系統

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會 & 鈦思科技
    • 計畫執行期間: 2009/11/1 to 2010/10/31
    • 關鍵詞:
    • 摘要簡介:

  26. 用於音訊音樂的計算聽覺場景分析(3/3)

    • 英文名稱: Computational Auditory Scene Analysis for Audio Music
    • 計畫編號: NSC 96-2628-E-007 -141 -MY3
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2009/8/1 to 2010/7/31
    • 關鍵詞: Computational Auditory Scene Analysis, Music Information Retrieval, Audio Music Analysis
    • 摘要簡介:
      所謂「計算聽覺場景分析」(Computational Auditory Scene Analysis,簡稱CASA) 的目標,就是要將單聲道的聲音(可能由多個音源所產生),經由電腦的自動計算,採 用各種方法(例如快速傅立葉轉換、動態規劃、機器學習等),並應用我們對音源所具 有的各種知識,來抽取出這些音源的聲音,以便進行下一步的處理。自從Bregman 在 1990 年提出Auditory Scene Analysis 的概念後,相關的研究持續不斷,但都注重在 一般語音的處理,直到近幾年來,音樂經由網際網路大量傳播,相關的分析與檢索也 越來越重要,因此CASA 在音訊音樂(Audio Music)方面的研究和應用也在這幾年開 始萌芽。本計畫將整合本實驗室開發多年的音訊處理技術(包含旋律辨識、語音辨識、 語音與歌聲合成、強韌式音高追蹤、語音轉換等),經由CASA 的架構來應用於音訊音 樂,希望建立有效的分析模式與方法,能夠對音訊音樂進行分析與處理。計畫的主要 目標,是希望針對一般流行音樂,做到下列幾點:
      1. 對音訊音樂進行主旋律的音高追蹤。
      2. 判斷歌聲存在的位置。
      3. 由音訊音樂抽取單音歌聲。
      4. 多重音高追蹤。
      5. 抽取其他單音樂器的聲音(例如鼓聲)。
      經由這些分析,我們可以對音訊音樂進行更精密的分類與檢索,相關的應用則有:
      1. 音訊音樂的自動分類與檢索
      2. 音訊音樂的哼唱檢索
      3. 音訊音樂的節拍追蹤
      4. 音訊音樂的歌詞同步顯示
      5. 音訊音樂的情緒內容分析

  27. 台灣自主處理器Android平台深耕計畫

    • 英文名稱:
    • 計畫編號:
    • 主持人: 李政崑
    • 補助單位: 經濟部學研計畫
    • 計畫執行期間: 2009/6/1 to 2010/5/31
    • 關鍵詞:
    • 摘要簡介:

  28. 唱作俱佳有聲書電子公仔計畫

    • 英文名稱:
    • 計畫編號:
    • 主持人: 金仲達
    • 補助單位: 經濟部學研計畫
    • 計畫執行期間: 2009/6/1 to 2010/5/31
    • 關鍵詞:
    • 摘要簡介:

  29. 以語者辨識為基礎之智慧型人機介面

    • 英文名稱: Intelligent Man-machine Interface based on Speaker Recognition
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2009/3/1 to 2009/12/31
    • 關鍵詞: 語者辨識、語音訊號處理、生物認證、智慧型人機介面
    • 摘要簡介:
      使用人的聲音來進行生物認證,是一項非常有吸引力的技術發展方向,因為聲音的擷取非常容易,不需要特殊的硬體,同時也不會造成使用者的擔心害怕,侵入性較低。但是聲音也容易受到外界雜訊的干擾,同時也容易受到說話者本身的身體情況所影響,這是此技術的缺點。由於電腦運算速度的突飛猛進,因此語者辨識的發展也漸漸突破這些門檻,逐漸變成實際可用的技術。本計畫將開發一套文本相關的語者辨識系統,以便實證此技術的可用度與成熟度,並設法克服語者辨識在實用上會碰到的問題,以便優化整體系統,達到可實際進行商業用途的目標。

  30. 從語音對話進行情緒辨識

    • 英文名稱: Emotion Detection from Spoken Dialog
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2009/3/1 to 2009/12/31
    • 關鍵詞: 語音訊號處理、樣式辨認、關鍵詞擷取
    • 摘要簡介:
      一個人的情緒外在表現,主要經由肢體動作、臉部表情、口說語言等三種方式來表現,而其中牽涉到的資料量(指可以直接送入電腦分析的資料),又以口說語言為最少(只有一維的音訊資料),但口說語言卻可以表達出很細膩的情緒,因此在情緒辨識的研究方面,語音對話就變成一個非常重要的研究線索,這也是近幾年來非常熱門的研究題材。

      在應用方面,以「語音進行情緒辨識」也有不同的面像和著力點,例如,在互動電子寵物的應用上,我們可以經由主人的語音來偵測其情緒,並進而推論最佳的回話與互動方式,以便提供體貼入微的服務,讓主人有貼心的感覺。在商業應用方面,我們可以經由客戶在客服專線的語音對話來判知其情緒,並進而瞭解客服人員在安撫客戶的功力及表現。此外,在一般手機通話的應用,我們也可以開通「心心相映指數」服務,以語音來判斷兩人對話的愉悅度。

      除了語音之外,互動電子寵物也能夠經由攝影機輕易地取得到主人的臉部表情和動作等,因此才能夠更進一步地「察言觀色」。經由這種多模式的情感計算(Multi-modal Affective Computing),才能夠更準確地判斷一個人的情緒狀態,這也是本計畫的整合研究重點。

  31. 嵌入式多核心編譯器與應用軟體平台研發計畫

    • 英文名稱:
    • 計畫編號:
    • 主持人: 李政崑
    • 補助單位: 清華大學
    • 計畫執行期間: 2009/3/1 to 2010/12/31
    • 關鍵詞: 嵌入式系統
    • 摘要簡介:

  32. 嵌入式異多核心系統技術研發3年計畫(第2期)

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 經濟部科專計畫
    • 計畫執行期間: 2008/11/1 to 2010/10/31
    • 關鍵詞:
    • 摘要簡介:

  33. Intel聯合研發計畫

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: Intel
    • 計畫執行期間: 2008/8/1 to 2009/7/31
    • 關鍵詞:
    • 摘要簡介:
      In this subproject, we shall devote to the deployment of speech technology for innovative and user-aware and location-aware MID applications, including the following potential items:
      1. Voice commands for MID applications
        Using simple voice commands for invoking MID applications is likely to be a feasible way of enable speech technology for natural user interface.
      2. Speaker identification/verification
        We can use voiceprint to identify a user and then adopt personalized MID settings. Such user-aware scenario will definitely improve user experience. Moreover, we can also apply speaker verification for authentication on MID.
      3. Computer-assisted pronunciation training (CAPT)
        Spoken language learning is a newly developed application area in speech technology. We can implement CAPT on MID for spoken language learning, including English and Mandarin.
      4. Speech-based retrieval of location-aware information
        Speech-enable interface for retrieving location-aware information is a practical application for everyday’s needs. In particular, we can focus on specific domains, such as travel and sightseeing. Most commonly used keywords for such domain are “restaurant”, “rest room”, “department store”, “bus stop”, and so on. Once our system receives the keyword, it should retrieve the corresponding information based on the geographic location to give location-aware results that can best suit the user’s needs.

  34. 用於音訊音樂的計算聽覺場景分析(2/3)

    • 英文名稱: Computational Auditory Scene Analysis for Audio Music
    • 計畫編號: NSC 96-2628-E-007 -141 -MY3
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2008/8/1 to 2009/7/31
    • 關鍵詞: Computational Auditory Scene Analysis, Music Information Retrieval, Audio Music Analysis
    • 摘要簡介:
      所謂「計算聽覺場景分析」(Computational Auditory Scene Analysis,簡稱CASA) 的目標,就是要將單聲道的聲音(可能由多個音源所產生),經由電腦的自動計算,採 用各種方法(例如快速傅立葉轉換、動態規劃、機器學習等),並應用我們對音源所具 有的各種知識,來抽取出這些音源的聲音,以便進行下一步的處理。自從Bregman 在 1990 年提出Auditory Scene Analysis 的概念後,相關的研究持續不斷,但都注重在 一般語音的處理,直到近幾年來,音樂經由網際網路大量傳播,相關的分析與檢索也 越來越重要,因此CASA 在音訊音樂(Audio Music)方面的研究和應用也在這幾年開 始萌芽。本計畫將整合本實驗室開發多年的音訊處理技術(包含旋律辨識、語音辨識、 語音與歌聲合成、強韌式音高追蹤、語音轉換等),經由CASA 的架構來應用於音訊音 樂,希望建立有效的分析模式與方法,能夠對音訊音樂進行分析與處理。計畫的主要 目標,是希望針對一般流行音樂,做到下列幾點:
      1. 對音訊音樂進行主旋律的音高追蹤。
      2. 判斷歌聲存在的位置。
      3. 由音訊音樂抽取單音歌聲。
      4. 多重音高追蹤。
      5. 抽取其他單音樂器的聲音(例如鼓聲)。
      經由這些分析,我們可以對音訊音樂進行更精密的分類與檢索,相關的應用則有:
      1. 音訊音樂的自動分類與檢索
      2. 音訊音樂的哼唱檢索
      3. 音訊音樂的節拍追蹤
      4. 音訊音樂的歌詞同步顯示
      5. 音訊音樂的情緒內容分析

  35. 聯發科嵌入式系統技術研究及人才培育計畫(第四子計畫:視訊及語音應用開發)

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 聯發科
    • 計畫執行期間: 2008/8/1 to 2009/7/31
    • 關鍵詞:
    • 摘要簡介:

  36. Tri-tone的連續聲調塑模及偵錯技術

    • 英文名稱: Tri-tone Based Continuous Tone Modeling and Analysis
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2008/3/1 to 2008/11/30
    • 關鍵詞: 電腦輔助發音練習、聲調辨識、隱藏式馬可夫模型、音高追蹤
    • 摘要簡介:
      由於電腦速度的增進以及語音科技的演進,語音辨識的應用領域已經從單純的人機介面轉到複雜度更高、用途更廣泛的電腦輔助發音訓練與評分。以華語而言,評分的標準除了音色之外,還包含聲調,因為華語是所謂的tonal language,尤其是對於外國人而言,正確的聲調遠比音色來得困難,因此本計畫將探討如何使用語音相關技術,來進行聲調的塑模與分析,並嘗試使用本計畫所開發的聲調辨識於整合性的華語電腦輔助學習系統之中,以提高電腦輔助發音訓練在華語方面的全面性與可用性。

  37. 語音辨識系統開發

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 中科院
    • 計畫執行期間: 2008/2/1 to 2008/11/30
    • 關鍵詞:
    • 摘要簡介:

  38. 用於音訊音樂的計算聽覺場景分析(1/3)

    • 英文名稱: Computational Auditory Scene Analysis for Audio Music
    • 計畫編號: NSC 96-2628-E-007 -141 -MY3
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2007/8/1 to 2008/7/31
    • 關鍵詞: Computational Auditory Scene Analysis, Music Information Retrieval, Audio Music Analysis
    • 摘要簡介:
      所謂「計算聽覺場景分析」(Computational Auditory Scene Analysis,簡稱CASA) 的目標,就是要將單聲道的聲音(可能由多個音源所產生),經由電腦的自動計算,採 用各種方法(例如快速傅立葉轉換、動態規劃、機器學習等),並應用我們對音源所具 有的各種知識,來抽取出這些音源的聲音,以便進行下一步的處理。自從Bregman 在 1990 年提出Auditory Scene Analysis 的概念後,相關的研究持續不斷,但都注重在 一般語音的處理,直到近幾年來,音樂經由網際網路大量傳播,相關的分析與檢索也 越來越重要,因此CASA 在音訊音樂(Audio Music)方面的研究和應用也在這幾年開 始萌芽。本計畫將整合本實驗室開發多年的音訊處理技術(包含旋律辨識、語音辨識、 語音與歌聲合成、強韌式音高追蹤、語音轉換等),經由CASA 的架構來應用於音訊音 樂,希望建立有效的分析模式與方法,能夠對音訊音樂進行分析與處理。計畫的主要 目標,是希望針對一般流行音樂,做到下列幾點:
      1. 對音訊音樂進行主旋律的音高追蹤。
      2. 判斷歌聲存在的位置。
      3. 由音訊音樂抽取單音歌聲。
      4. 多重音高追蹤。
      5. 抽取其他單音樂器的聲音(例如鼓聲)。
      經由這些分析,我們可以對音訊音樂進行更精密的分類與檢索,相關的應用則有:
      1. 音訊音樂的自動分類與檢索
      2. 音訊音樂的哼唱檢索
      3. 音訊音樂的節拍追蹤
      4. 音訊音樂的歌詞同步顯示
      5. 音訊音樂的情緒內容分析

  39. 華語文互動語音教學技術研發

    • 英文名稱: Speech-based Dialog Technologies for Learning Mandarin Chinese
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2007/5/1 to 2007/12/31
    • 關鍵詞: 中文語音辨識、電腦輔助發音訓練、電腦輔助口說語音學習
    • 摘要簡介:
      本計畫將採用中文語音辨識與語音評分的技術,開發一套電腦輔助口說中文的學習系統,同時在 PC 以及嵌入式系統(PDA、PMP、SmartPhone等手持式裝置)進行系統實現。使用者只要對麥克風講一句中文,此系統即可根據輸入語音資料,抓取音色(語音的內容)、聲調(國語四個聲調的分類)、韻律(每一個音的時間長短)、音量(每一個音的強度)等語音特徵,然後進行和目標語句或是語音模型的比對,根據其相似度來產生一個介於0和100之間的分數。和前一年的計畫比起來,本年所開發的系統更著重於混淆音的偵測,因此必須對學習者的母語進行事前分析,以系統化的方式來找出使用者在學習漢語時,可能產生的混淆音(通常是由母語干擾所發生)),並在實際應用時,能夠準確地偵測混淆音的發生並給予使用者發音改進的建議。此外,我們也要加強對話情境的練習,因此必須對對話教材的準備,多下功夫。

  40. 以語音辨識及合成為基礎的口說華語文電腦輔助學習系統

    • 英文名稱: A Spoken Mandarin Learning System Based on Speech Recognition and Synthesis
    • 計畫編號: 95-3113-S-007-001-
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2006/12/1 to 2007/11/30
    • 關鍵詞: 華語文教學、電腦輔助語言學習、電腦輔助發音訓練、語音辨識、語音合成
    • 摘要簡介:
      一種語言的學習,可以大略分成「聽、說、讀、寫」四大面向,其中「聽、說」是牽涉到「語音」的接收和產生,而「讀、寫」則是牽涉到「文字」的接收與產生。本計畫將整合本實驗室開發多年且實際可行的語音技術(包含語音辨識、語音合成、語音轉換等),來輔助學習者在華語文「聽、說」方面的學習,並與元智大學羅鳳珠老師所提出的「完整多元華語文網路學院」計畫合作,使用該計畫的國語日報社、僑教雙週刊、美洲華語課本、中國古典文學等相關素材,並與國語日報社合作,使用相關的教材,目標是產出一個實際可用的「電腦輔助口說華語文發音練習及評分系統」,具有下列三項功能:
      1. 對使用者的單句華語發音進行評分,評分層級包含每一個注音、字、句,評分標準包含音色、韻律(流利度)、音調、音量等,並給予發音改進的建議。
      2. 使用語音辨識的技術和使用者進行各種情境對話。
      3. 以語音合成的方式,來讓使用者進行聽力測驗。
      此三項功能,能夠讓使用者經由與電腦的反覆互動,進行發音練習、情境對話及聽力測驗,並經由電腦的回饋(包含鼓勵、說明、矯正),加強自己口說華語文的正確發音,達到學習華語文的「聽、說」的目標。

  41. 聽寫系統之語者調適技術

    • 英文名稱: Speaker Adaptation for an Embedded Dictation System
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 賽微科技
    • 計畫執行期間: 2006/11/1 to 2007/10/31
    • 關鍵詞: 語者調適、語音辨識、聽寫系統
    • 摘要簡介:
      本計畫嘗試使用語者調適之各項技術,改進用於 SmartPhone 之聽寫系統,以便用於手機之語音轉簡訊的功能。

  42. 音樂搜尋的加速與辨識率提升,及其在嵌入式系統的實作與應用(3/3)

    • 英文名稱: Speedup Mechansim and Performance Enhancement for Music Information Retrieval, with Applications to Embedded Systems
    • 計畫編號: 95-2221-E-007-220-
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2006/8/1 to 2007/7/31
    • 關鍵詞: 音樂資訊檢索、多模式使用者介面、旋律辨識、音高追蹤、多媒體資料庫檢索、動態時間校正
    • 摘要簡介:
      由於本計畫主持人過去數年在國科會、教育部卓越計畫及清蔚科技之經費支援下,已經成功地建立了一個大型的音樂檢索系統,收集了超過兩萬首歌曲,讓使用者能以哼唱、語音與敲擊等不同方式來選取網際網路上的歌曲。為了能夠以快速的方法對大量資料進行有效的比對,我們除了在比對方法進行深入研究外,也架設了網格運算(Grid Computing)的伺服器平台,期望以平行及分散處理的方式,增進系統的可用性。在此種包含大量資料處理與比對的系統中,衍生了許多相關研究的研究議題,本研究計畫擬以三年時間,針對這些議題進行深入探討,這些議題及相關研究時程列出如下:
      1. 第一年: 以提高辨識率為主
        1. 音高追蹤(Pitch Tracking)的各種新方法的嘗試,包含 Combination of Classifiers、ACF/AMDF Map 等。
        2. 動態時間校正(Dynamic Time Warping)的改進與測試,包含 Local Path Constraints、Path Penalty、Flexible Starting Points 等。
      2. 第二年:以加快辨識速度為主
        1. 「兩階段式比對法」的探討與改良,包含以不同的方式進行兩階段比對,例如 Linear Scaling 加 DTW (Dynamic Time Warping)、
        2. 其他各種音樂檢索方法的探討與加速,包含如何精確地計算 DTW 的 Lower Bound、如何以 FastMap 的方法來將歌曲轉換到高為空間中的點等。
        3. 隱藏式馬可夫模型(Hidden Markov Models)的嘗試與改進
      3. 第三年:以嵌入式系統的移植為主
        1. 音高追蹤與檢索方法的精進與簡化
        2. 嵌入式系統的實作與應用

  43. PDA中文語音合成系統

    • 英文名稱: Chinese TTS for PDA
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 微星科技
    • 計畫執行期間: 2006/7/1 to 2007/6/30
    • 關鍵詞: 語音合成、嵌入式系統之應用
    • 摘要簡介:
      完成PC/PDA平台之語音合成演算法及展示程式,用來做為機器人應答系統的基礎。

  44. 強健性關鍵詞語音辨識

    • 英文名稱: Robust Keyword Spotting
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 微星科技
    • 計畫執行期間: 2006/7/1 to 2007/6/30
    • 關鍵詞: 強健性語音辨識、關鍵詞語音辨識
    • 摘要簡介:
      完成PC平台之強健性語音關鍵詞辨識演算法及展示程式,用來做為機器人聽覺系統的基礎。

  45. 手持式裝置的口說中文輔助學習技術

    • 英文名稱: Computer-assisted Spoken Chinese Learning Systems for Hand-held Device
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2006/3/1 to 2006/12/31
    • 關鍵詞: 中文語音辨識、電腦輔助發音訓練、電腦輔助口說語音學習
    • 摘要簡介:
      本計畫將採用中文語音辨識與語音評分的技術,開發一套電腦輔助口說中文的學習系統,以PDA/SmartPhone等手持式裝置為實現平台。使用者只要對麥克風講一句中文,此系統即可根據輸入語音資料,抓取音色(語音的內容)、聲調(國語四個聲調的分類)、韻律(每一個音的時間長短)、音量(每一個音的強度)等語音特徵,然後進行和目標語句或是語音模型的比對,根據其相似度來產生一個介於0和100之間的分數,並可進行錯誤分析,給予使用者發音改進的建議。雖然語音辨識的系統已有許多,但是多半還是在PC平台的應用,因此本計畫的最大挑戰,就是將語音辨識與評分,移植到計算能力較差的手持式裝置,這方面的技術門檻很高,目前市面上還沒有看到類似的產品。

  46. 台灣數位有聲書網之建置與推廣

    • 英文名稱: The Development and Promotion of the Web Portal for Digital Talking Books in Taiwan
    • 計畫編號: NSC 95-2422-H-007 -001
    • 主持人: 張智星、唐傳義、陳宜欣
    • 補助單位: 國科會
    • 計畫執行期間: 2006/3/1 to 2007/2/28
    • 關鍵詞: DAISY Book、 數位有聲書、語音辨識、語音合成、語音檢索
    • 摘要簡介:
      在國際上DAISY (Digital Accessible Information System) 有聲書在視障與學障的學習方面,已經成為不可或缺的工具,為了讓台灣視障讀者都可享有數位學習的優點,並充分享用DAISY 有聲書的特色,因此發展一套適合華人使用的環境刻不容緩。在93、94 年的數位典藏計畫中,我們已經完成了兩項相關系統:
      1. 台灣視障用數位典藏之語音檢索系統:此系統可讓使用者直接經由聲控的方式,檢索有聲書圖書館內的藏書,並可以使用語音合成的方式,來唸出書名,以便使用者下載聆聽。(此系統已經實際上線,並用於清大盲友會,用戶已經達到283 人,下載次數累計7326次,94/11/28 止)。
      2. 具有聲控功能的DAISY 中文播放器:這是一個以Java 程式語音所編寫的DAISY 中文播放器,適用於一般PC,同時加上了語音檢索與語音合成的功能,是全球第一個中文DAISY播放器,也是全球目前唯一具有語音檢索與語音合成功能的DAISY 播放器。
      基於前述兩項系統的成功,我們希望在95 年度的計畫中,製作一個DAISY 有聲書網,並將DAISY 中文播放器移植到各種可用的平台(包含PC、PDA、SmartPhone),推廣給視障與學障使用,並研究解決智財權的問題,探討推廣至一般民眾,期望達成的具體效果有:
      1. 提供視障者一個便捷取得有聲書的管道,以降低數位落差。
      2. 提供可於不同平台(包含PC、PDA、SmartPhone)使用的DAISY 中文播放器,並具有語音檢索與合成的功能。
      3. 利用網路科技整合國內各有聲製作單位,以節省整体社會成本。
      4. 利用標準化的數位有聲書製作規範,方便流通單位間的交流。
      5. 引進國際有聲書製作技術,方便讀者聽讀,以增進有聲書的流通。
      6. 利用數位製作、典藏與流通,符合國際趨勢,為國際有聲書交流舖路。
      7. 除了能夠具有語音檢索功能外,也能夠提供自然悅耳的語音合成效果,以降低有聲書的製作成本。

  47. 音樂搜尋的加速與辨識率提升,及其在嵌入式系統的實作與應用(2/3)

    • 英文名稱: Speedup Mechansim and Performance Enhancement for Music Information Retrieval, with Applications to Embedded Systems
    • 計畫編號: NSC 93-2213-E-007-058
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2005/8/1 to 2006/7/31
    • 關鍵詞: 音樂資訊檢索、多模式使用者介面、旋律辨識、音高追蹤、多媒體資料庫檢索、動態時間校正
    • 摘要簡介:
      由於本計畫主持人過去數年在國科會、教育部卓越計畫及清蔚科技之經費支援下,已經成功地建立了一個大型的音樂檢索系統,收集了超過兩萬首歌曲,讓使用者能以哼唱、語音與敲擊等不同方式來選取網際網路上的歌曲。為了能夠以快速的方法對大量資料進行有效的比對,我們除了在比對方法進行深入研究外,也架設了網格運算(Grid Computing)的伺服器平台,期望以平行及分散處理的方式,增進系統的可用性。在此種包含大量資料處理與比對的系統中,衍生了許多相關研究的研究議題,本研究計畫擬以三年時間,針對這些議題進行深入探討,這些議題及相關研究時程列出如下:
      1. 第一年: 以提高辨識率為主
        1. 音高追蹤(Pitch Tracking)的各種新方法的嘗試,包含 Combination of Classifiers、ACF/AMDF Map 等。
        2. 動態時間校正(Dynamic Time Warping)的改進與測試,包含 Local Path Constraints、Path Penalty、Flexible Starting Points 等。
      2. 第二年:以加快辨識速度為主
        1. 「兩階段式比對法」的探討與改良,包含以不同的方式進行兩階段比對,例如 Linear Scaling 加 DTW (Dynamic Time Warping)、
        2. 其他各種音樂檢索方法的探討與加速,包含如何精確地計算 DTW 的 Lower Bound、如何以 FastMap 的方法來將歌曲轉換到高為空間中的點等。
        3. 隱藏式馬可夫模型(Hidden Markov Models)的嘗試與改進
      3. 第三年:以嵌入式系統的移植為主
        1. 音高追蹤與檢索方法的精進與簡化
        2. 嵌入式系統的實作與應用

  48. 利用台灣現有視障用數位典藏資料製作盲人電子書-發展DAISY中文播放器及相關之語音辨識與合成功能(子計畫二)

    • 英文名稱: On the Development of DAISY Chinese Player with Speech-enabled Interface Based on Speech Recognition and Synthesis
    • 計畫編號: NSC 94-2422-H-007-005
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2005/3/1 to 2006/2/28
    • 關鍵詞: DAISY, speech recognition, speech synthesis
    • 摘要簡介:
      本研究計畫的主要目標,在建立一個中文化的 DAISY 軟體播放器,以服務台灣地區的視障同胞,並在此軟體加上語音辨識與合成功能,以延伸原先 DAISY 軟體播放器的功能,提供盲胞以語音來操控軟體或進行全文檢索,並將檢索所得的資訊以與音的方式來呈現。目前提供公開下載的 DAISY 軟體播放器大概有十多種,但是都是國外發展的系統,沒有中文化的介面,我們會參考現存的播放器,發展出中文化的系統,以符合台灣地區的需求。另外,我們也會將語音合成與語音辨識加入此系統,讓使用者可以使用語音命令來搜尋 DAISY 內容,若只找到文字內容,系統也可以使用語音合成來播放,延伸原先的 DAISY 播放器的功能,讓盲胞及視障朋友更易於使用此系統,降低因為身體障礙所可能造成的數位落差。

  49. 多模式音樂檢索的加速方法

    • 英文名稱: Speedup Mechanisms for Multi-modal Music Information Retrieval
    • 計畫編號: NSC 93-2622-E-007-012-CC3
    • 主持人: 張智星
    • 補助單位: 國科會、清蔚科技
    • 計畫執行期間: 2004/11/1 to 2005/10/31
    • 關鍵詞: 多模式音樂資訊檢索、圖形辨識、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      網路所標榜的終極目標,是要使任何人能在任何時間、任何地點,都能獲得所需的任何資訊或服務,因此提供使用者一個有效的資訊檢索機制,便成為檢索系統所應該考慮的重要課題。本計畫的動機即是希望針對音樂檢索系統,提供多模式的音樂檢索技術配合音樂檢索的友善介面,並發展有效的加速方法,以降低計算時間,並使比對技術能真正落實於實際可用的商品上。在多模式檢索技術上,我們提供query by singing、query by humming、query by tapping 以及 query by speech,讓使用者能多元化輸入檢索資料。在加速研究方法上,我們會採用建立索引(indexing)為基礎的方法,來降低實際計算的時間。也就是結合階層式的比對方式(先用快速方法刪除不可能的歌,再用詳細的比對方法來處理剩餘的歌),並利用數學分析找出比對方法中的最佳參數值。最後,我們要利用大量的錄音資料來對系統效能進行最佳化,以求取最佳的系統參數。本計畫的最終目標,就是希望使用者能直接對麥克風哼唱八秒,利用本計畫所開發的音樂檢索系統即可對大型歌曲資料庫(包含三萬首歌曲)進行有效且迅速的比對,並能在五秒(從頭比對)或十五秒(從任意處比對)內回傳比對最相似的前二十首歌。

  50. 台灣視障用數位典藏之語音檢索系統

    • 英文名稱: Speech-based Information Retrieval for the Blind by Digital Archives in Taiwan
    • 計畫編號:
    • 主持人: 唐傳義、張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2004/8/1 to 2005/4/30
    • 關鍵詞: 數位訊號處理、語音辨識、圖形辨識
    • 摘要簡介:
      當我們對週遭事物視若無睹時,有些人、卻只能透過摸索求取生存。當網路加速資訊的流通時,有些人、卻逐漸喪失求知的基本人權。是否數位典藏的應用加值技術能改善此知識落差(Knowledge Gap)?

      本研究目的為建立台灣視障用數位典藏之語音檢索系統。本計畫以將網際網路新聞及音樂檢索為研究發展的目標,主要提供了全方位盲人『書籍』、『新聞』、『音樂』的檢索服務,透過人性化的使用者介面,以語音輸入的方式來搜尋新聞及書籍,以哼唱的方式來搜尋音樂,並建立分散式數位有聲資料庫,讓盲友能藉由語音的檢索,更方便、有效率的存取數位資訊。

      在盲友會建置『聯合書目通報系統』、『全國視障有聲書製作平台』、『盲人有聲書圖書館建置計畫』及自費將大量語音有聲書數位化後,透過本計畫實作之語音有聲檢索系統的加值應用,將可以完整協調整合國內盲友相關服務資源,並真正提升盲友服務單位之前所進行珍貴數位典藏之附加價值,補足盲友數位典藏拼圖中最後一塊也是最重要一塊的缺角。相關的技術及典範將來並可移轉至國內相關的文教服務單位及數位典藏機構,將來更可嘗試研擬出對一般朋友的收費加值服務,以對於各弱勢團體機構增加外收入,建立其永續經營之運作機制,成為國內外數位典藏之公益加值應用樹立一最佳典範。

  51. 音樂搜尋的加速與辨識率提升,及其在嵌入式系統的實作與應用(1/3)

    • 英文名稱: Speedup Mechansim and Performance Enhancement for Music Information Retrieval, with Applications to Embedded Systems
    • 計畫編號: NSC 93-2213-E-007-058
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2004/8/1 to 2005/7/31
    • 關鍵詞: 音樂資訊檢索、多模式使用者介面、旋律辨識、音高追蹤、多媒體資料庫檢索、動態時間校正
    • 摘要簡介:
      由於本計畫主持人過去數年在國科會、教育部卓越計畫及清蔚科技之經費支援下,已經成功地建立了一個大型的音樂檢索系統,收集了超過兩萬首歌曲,讓使用者能以哼唱、語音與敲擊等不同方式來選取網際網路上的歌曲。為了能夠以快速的方法對大量資料進行有效的比對,我們除了在比對方法進行深入研究外,也架設了網格運算(Grid Computing)的伺服器平台,期望以平行及分散處理的方式,增進系統的可用性。在此種包含大量資料處理與比對的系統中,衍生了許多相關研究的研究議題,本研究計畫擬以三年時間,針對這些議題進行深入探討,這些議題及相關研究時程列出如下:
      1. 第一年: 以提高辨識率為主
        1. 音高追蹤(Pitch Tracking)的各種新方法的嘗試,包含 Combination of Classifiers、ACF/AMDF Map 等。
        2. 動態時間校正(Dynamic Time Warping)的改進與測試,包含 Local Path Constraints、Path Penalty、Flexible Starting Points 等。
      2. 第二年:以加快辨識速度為主
        1. 「兩階段式比對法」的探討與改良,包含以不同的方式進行兩階段比對,例如 Linear Scaling 加 DTW (Dynamic Time Warping)、
        2. 其他各種音樂檢索方法的探討與加速,包含如何精確地計算 DTW 的 Lower Bound、如何以 FastMap 的方法來將歌曲轉換到高為空間中的點等。
        3. 隱藏式馬可夫模型(Hidden Markov Models)的嘗試與改進
      3. 第三年:以嵌入式系統的移植為主
        1. 音高追蹤與檢索方法的精進與簡化
        2. 嵌入式系統的實作與應用

  52. 應用於數位教材的語音檢索與語者確認

    • 英文名稱: On the Use of Speech-based Retrieval and Speaker Verification for Digital Courseware
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 統信企業管理顧問
    • 計畫執行期間: 2004/3/1 to 2004/10/31
    • 關鍵詞: 數位訊號處理、語音辨識、語者辨識、圖形辨識
    • 摘要簡介:
      本計畫將探討如何使用語音技術於數位教材的檢索與安全機制。在檢索方面,我們將使用語音檢索的方式,讓使用者只要對麥克風說出關鍵詞,電腦即可搜尋出相關的教材。在安全機制方面,我們使用語者確認的技術,讓使用者只要對著麥克風說出自己的代表語句,系統即可確認此使用者是否真為其本人。

  53. 大型音樂檢索系統的理論與實作(3/3)

    • 英文名稱: Large-scale Music Information Retrieval System: Theory and Implementation(3/3)
    • 計畫編號: NSC 90-2213-E-007-058
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2003/8/1 to 2004/7/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      由於網際網路的興起,各種數位媒體資訊在網路上流通的速度越來越頻繁,數量也越來越大,因此如何能以多媒體資料的內容,來對多媒體資料進行有效的索引(Indexing)和檢索(Retrieval,或翻譯成「擷取」),就變成一個非常重要的課題,這一類的研究通成為「以內容為主的多媒體資訊檢索」(Content-based Multimedia Information Retrieval),而相關的實作系統,不但能用於網際網路的多媒體搜尋引擎,也是數位圖書館(或博物館)內不可或缺的自動化工具。

      本計畫將對音樂資訊檢索進行技術與理論的探討,並將實作一個大型的網際網路音樂搜尋引擎,期望能將應用所有資訊檢索、圖形辨識、類神經網路、數位訊號處理、動態規劃、最近鄰居搜尋法、聚類分析的各項理論與方法,來對大型音樂資料庫進行快速且有效的檢索與比對,並能應用Web程式設計的技術,以及 Client/server 分散式計算,Sever clusters平行計算的技巧,來增加檢索速度,使得使用者對大型音樂資料庫進行檢索時,只要對著麥克風唱(或哼)8秒鐘,此系統即可在10秒內傳回最相似的前20名歌曲。

      要進行本項研究,所需的背景知識較多,除了要對上述各種技術與方法的掌握與實做外,還必須瞭解音樂的特性,以及每個人不同的唱歌習性(轉音、抖音、共鳴等)在數位訊號及基頻分析所造成的效果。本計畫主持人從1997年即開始國科會 VOD 計畫之智慧型選歌介面的研究,並持續相關研究至今,其間並和清蔚科技公司合作,開發出「超級點歌王」(請見所附之試用光碟),可對3000首歌進行及時檢索,因此已累積相當研究動量,希望能申請多年期研究計畫,一舉建立全球檢索功能最完善、辨識率最高的網際網路音樂搜尋引擎,一如 www.google.com 在文字搜尋引擎所佔的龍頭地位般。

      在第一年的計畫中,我們希望能建立一個中型音樂檢索系統,能對8000首歌曲進行檢索,並能在十秒內得到答案。我們將嘗試各種加速的方法,並調適各種方法的參數(如階層濾除法,詳見後述),以在有限的時間內,得到最佳的辨識率。此外,我們要加強基頻分析的可靠度,使得此系統對於使用不同發音方法的人,都能抓取夠多的正確基頻資訊,以加強整個系統的強健性。

      在第二年的計畫中,我們希望持續前一年度的研究,繼續嘗試各種加速方法(詳見後述),並期望將這些方法應用於一個大型音樂檢索系統,能對15000首歌進行檢索,並能在十秒內得到結果。同時我們也將建立 web 上的搜尋引擎,以及音樂檔自動蒐集程式及自動建立索引程式,並利用 client/server 進行分散式計算,以減輕 server 的計算量以及網路資料流量。

      在第三年的計畫中,我們仍然要精益求精,嘗試各種迅速有效的比對方法。此外,當歌越來越多時,我們要考慮建立 server cluster,以平行計算的方式,來降低使用者的等待時間。同時我們也要對 server 點歌計算的各種資料進行分析,以找出最好的 task partitioning 的方式,以及最佳的比對次序。

  54. 音樂檢索的加速方法

    • 英文名稱: Methods for Efficient Music Retrieval
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會、清蔚科技
    • 計畫執行期間: 2003/6/1 to 2004/5/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      隨著數位內容(含聲音、音樂、影像、視訊等多媒體資料)數量的大幅成長,對於數位內容的檢索也就變成一個重要的課題。本計畫的動機即是希望針對音樂檢索系統,開發以哼唱選歌的友善介面,並發展有效的加速方法,以降低計算時間,並使此比對技術能真正落實於實際可用的商品上。在研究方法上,我們會採用各種 nearest neighbor search 的各種方法(如 k-d tree, branch-and-bound tree search, vantage-point tree search),來降低實際計算的時間。此外,我們也會嘗試階層式的比對方式(先用快速方法刪除不可能的歌,再用詳細的比對方法來處理剩餘的歌),並利用數學分析找出比對方法中的最佳參數值。最後,我們要利用大量的錄音資料來對系統效能進行最佳化,以求取最佳的系統參數。本計畫的最終目標,就是希望使用者能直接對麥克風哼唱八秒,利用本計畫所開發的音樂檢索系統即可對大型歌曲資料庫(包含三萬首歌曲)進行有效且迅速的比對,並能在五秒(從頭比對)或十五秒(從任意處比對)內回傳比對最相似的前二十首歌。

  55. 音訊技術研究

    • 英文名稱: Studies on Audio Technology
    • 計畫編號:
    • 主持人: 鄭士康、賴飛羆、張智星、蘇文鈺
    • 補助單位: 凌陽科技
    • 計畫執行期間: 2002/9/1 to 2003/8/31
    • 關鍵詞: MP3編碼器、音色檔案壓縮、語音轉換器、3D音訊處理
    • 摘要簡介:
      本計畫結合台大、清大、成大音訊處理技術研究有關學者,與凌陽科技同仁商討後,決定以MP3 編碼器設計、音色檔案壓縮、語音轉換器設計、3D音訊處理等四項技術為合作研發項目。茲分項說明如下:

      MP3編碼器由台大負責,開發合於MPEG標準的編碼器,並嘗試提升編碼器軟體技術水準,求更高品質的音樂與更大比例的壓縮。

      音色檔案壓縮由台大負責,開發更有效率的音色波形表儲存方法,希望能節省儲存空間;將來可以運用在一些較小的記憶元件或是儲存空間有限的設備上,期建立由sunplus提供之母音所對應之壓縮資料庫。

      以上二項屬音樂訊號處理技術,其成果可應用於各式電子科技產品,例如手機鈴聲,MP3隨身聽,錄音筆等。

      語音轉換器由清大負責,開發類似「柯南機」的小裝置,可以即時轉換語音。此種技術應用層面甚廣,例如趣味玩具、電影或電視劇的配音、在對講機或電話對談中偽裝個人的身份、移除語者的個人語音特性以增進語音辨識系統的辨識率等。

      3D音訊處理由成大負責,開發虛擬5.1聲道音響技術在普通耳機產生高級音響的效果,在電子遊戲及虛擬實境也有很多應用。

  56. 大型音樂檢索系統的理論與實作(2/3)

    • 英文名稱: Large-scale Music Information Retrieval System: Theory and Implementation(2/3)
    • 計畫編號: NSC 90-2213-E-007-058
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2002/8/1 to 2003/7/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      由於網際網路的興起,各種數位媒體資訊在網路上流通的速度越來越頻繁,數量也越來越大,因此如何能以多媒體資料的內容,來對多媒體資料進行有效的索引(Indexing)和檢索(Retrieval,或翻譯成「擷取」),就變成一個非常重要的課題,這一類的研究通成為「以內容為主的多媒體資訊檢索」(Content-based Multimedia Information Retrieval),而相關的實作系統,不但能用於網際網路的多媒體搜尋引擎,也是數位圖書館(或博物館)內不可或缺的自動化工具。

      本計畫將對音樂資訊檢索進行技術與理論的探討,並將實作一個大型的網際網路音樂搜尋引擎,期望能將應用所有資訊檢索、圖形辨識、類神經網路、數位訊號處理、動態規劃、最近鄰居搜尋法、聚類分析的各項理論與方法,來對大型音樂資料庫進行快速且有效的檢索與比對,並能應用Web程式設計的技術,以及 Client/server 分散式計算,Sever clusters平行計算的技巧,來增加檢索速度,使得使用者對大型音樂資料庫進行檢索時,只要對著麥克風唱(或哼)8秒鐘,此系統即可在10秒內傳回最相似的前20名歌曲。

      要進行本項研究,所需的背景知識較多,除了要對上述各種技術與方法的掌握與實做外,還必須瞭解音樂的特性,以及每個人不同的唱歌習性(轉音、抖音、共鳴等)在數位訊號及基頻分析所造成的效果。本計畫主持人從1997年即開始國科會 VOD 計畫之智慧型選歌介面的研究,並持續相關研究至今,其間並和清蔚科技公司合作,開發出「超級點歌王」(請見所附之試用光碟),可對3000首歌進行及時檢索,因此已累積相當研究動量,希望能申請多年期研究計畫,一舉建立全球檢索功能最完善、辨識率最高的網際網路音樂搜尋引擎,一如 www.google.com 在文字搜尋引擎所佔的龍頭地位般。

      在第一年的計畫中,我們希望能建立一個中型音樂檢索系統,能對8000首歌曲進行檢索,並能在十秒內得到答案。我們將嘗試各種加速的方法,並調適各種方法的參數(如階層濾除法,詳見後述),以在有限的時間內,得到最佳的辨識率。此外,我們要加強基頻分析的可靠度,使得此系統對於使用不同發音方法的人,都能抓取夠多的正確基頻資訊,以加強整個系統的強健性。

      在第二年的計畫中,我們希望持續前一年度的研究,繼續嘗試各種加速方法(詳見後述),並期望將這些方法應用於一個大型音樂檢索系統,能對15000首歌進行檢索,並能在十秒內得到結果。同時我們也將建立 web 上的搜尋引擎,以及音樂檔自動蒐集程式及自動建立索引程式,並利用 client/server 進行分散式計算,以減輕 server 的計算量以及網路資料流量。

      在第三年的計畫中,我們仍然要精益求精,嘗試各種迅速有效的比對方法。此外,當歌越來越多時,我們要考慮建立 server cluster,以平行計算的方式,來降低使用者的等待時間。同時我們也要對 server 點歌計算的各種資料進行分析,以找出最好的 task partitioning 的方式,以及最佳的比對次序。

  57. 音樂檢索的加速方法

    • 英文名稱: Methods for Efficient Music Retrieval
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會、清蔚科技
    • 計畫執行期間: 2002/6/1 to 2003/5/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      隨著數位內容(含聲音、音樂、影像、視訊等多媒體資料)數量的大幅成長,對於數位內容的檢索也就變成一個重要的課題。本計畫的動機即是希望針對音樂檢索系統,開發以哼唱選歌的友善介面,並發展有效的加速方法,以降低計算時間,並使此比對技術能真正落實於實際可用的商品上。在研究方法上,我們會採用各種 nearest neighbor search 的各種方法(如 k-d tree, branch-and-bound tree search, vantage-point tree search),來降低實際計算的時間。此外,我們也會嘗試階層式的比對方式(先用快速方法刪除不可能的歌,再用詳細的比對方法來處理剩餘的歌),並利用數學分析找出比對方法中的最佳參數值。最後,我們要利用大量的錄音資料來對系統效能進行最佳化,以求取最佳的系統參數。本計畫的最終目標,就是希望使用者能直接對麥克風哼唱八秒,利用本計畫所開發的音樂檢索系統即可對大型歌曲資料庫(包含三萬首歌曲)進行有效且迅速的比對,並能在五秒(從頭比對)或十五秒(從任意處比對)內回傳比對最相似的前二十首歌。

  58. 語音訊號處理與辨識的軟硬體實作與整合

    • 英文名稱: Audio Signal Processing and Recognition: Software/Hardware Implementation and Integration
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 鈦思科技
    • 計畫執行期間: 2002/1/1 to 2002/12/31
    • 關鍵詞:
    • 摘要簡介:
      隨著個人電腦的速度每18個月翻升一倍,所有以前被視為需要大量計算、只能在工作站執行的應用,現在都可以慢慢移轉到個人電腦執行。因此,語音訊號的處理與辨識,便漸漸成為非常實用性的技術,可以整合到個人電腦的各種相關應用。此外,更由於各種資訊家電、行動通訊(如 PDA、SmartPhone)的快速發展,以語音為介面的智慧型輸入方式也越來越重要,這些實用的技術除了要靠軟體的發展外,更重要的是如何在很短的時間內,將軟體的程式碼變成硬體的元件,並能立刻整合到相關的應用系統之中。

      從軟體到硬體的過程,除了要將演算法改為適合硬體運算的方法外,還要考慮在硬體方面的各種實際限制,例如記憶體的限制、由浮點數轉至定點數所造成的計算誤差、計算速度的降低、輸出/輸入的介面限制等,這些都是我們要考慮的因素。

      在傳統的作法中,由軟體至硬體的轉換過程完全要靠人工來完成,其中包含了許多「嘗試錯誤」的過程,本計畫將此過程盡量自動化,利用 MATLAB/Simulink/Toolbox 的各種現成功能,嘗試將在 Simulink 環境下所發展的辨識系統(如語者辨識、語音命令辨識、曲調辨識)轉換到 TI 的 67xx 系列的硬體平台。此外,我們也將發展相關的發展環境與介面,嘗試將 Simulink 的各種辨識系統轉換至更低階的版子,如 8051 等。

  59. 大型音樂檢索系統的理論與實作(1/3)

    • 英文名稱: Large-scale Music Information Retrieval System: Theory and Implementation(1/3)
    • 計畫編號: NSC 90-2213-E-007-058
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2001/8/1 to 2002/7/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、圖形辨識、類神經網路、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      由於網際網路的興起,各種數位媒體資訊在網路上流通的速度越來越頻繁,數量也越來越大,因此如何能以多媒體資料的內容,來對多媒體資料進行有效的索引(Indexing)和檢索(Retrieval,或翻譯成「擷取」),就變成一個非常重要的課題,這一類的研究通成為「以內容為主的多媒體資訊檢索」(Content-based Multimedia Information Retrieval),而相關的實作系統,不但能用於網際網路的多媒體搜尋引擎,也是數位圖書館(或博物館)內不可或缺的自動化工具。

      本計畫將對音樂資訊檢索進行技術與理論的探討,並將實作一個大型的網際網路音樂搜尋引擎,期望能將應用所有資訊檢索、圖形辨識、類神經網路、數位訊號處理、動態規劃、最近鄰居搜尋法、聚類分析的各項理論與方法,來對大型音樂資料庫進行快速且有效的檢索與比對,並能應用Web程式設計的技術,以及 Client/server 分散式計算,Sever clusters平行計算的技巧,來增加檢索速度,使得使用者對大型音樂資料庫進行檢索時,只要對著麥克風唱(或哼)8秒鐘,此系統即可在10秒內傳回最相似的前20名歌曲。

      要進行本項研究,所需的背景知識較多,除了要對上述各種技術與方法的掌握與實做外,還必須瞭解音樂的特性,以及每個人不同的唱歌習性(轉音、抖音、共鳴等)在數位訊號及基頻分析所造成的效果。本計畫主持人從1997年即開始國科會 VOD 計畫之智慧型選歌介面的研究,並持續相關研究至今,其間並和清蔚科技公司合作,開發出「超級點歌王」(請見所附之試用光碟),可對3000首歌進行及時檢索,因此已累積相當研究動量,希望能申請多年期研究計畫,一舉建立全球檢索功能最完善、辨識率最高的網際網路音樂搜尋引擎,一如 www.google.com 在文字搜尋引擎所佔的龍頭地位般。

      在第一年的計畫中,我們希望能建立一個中型音樂檢索系統,能對8000首歌曲進行檢索,並能在十秒內得到答案。我們將嘗試各種加速的方法,並調適各種方法的參數(如階層濾除法,詳見後述),以在有限的時間內,得到最佳的辨識率。此外,我們要加強基頻分析的可靠度,使得此系統對於使用不同發音方法的人,都能抓取夠多的正確基頻資訊,以加強整個系統的強健性。

      在第二年的計畫中,我們希望持續前一年度的研究,繼續嘗試各種加速方法(詳見後述),並期望將這些方法應用於一個大型音樂檢索系統,能對15000首歌進行檢索,並能在十秒內得到結果。同時我們也將建立 web 上的搜尋引擎,以及音樂檔自動蒐集程式及自動建立索引程式,並利用 client/server 進行分散式計算,以減輕 server 的計算量以及網路資料流量。

      在第三年的計畫中,我們仍然要精益求精,嘗試各種迅速有效的比對方法。此外,當歌越來越多時,我們要考慮建立 server cluster,以平行計算的方式,來降低使用者的等待時間。同時我們也要對 server 點歌計算的各種資料進行分析,以找出最好的 task partitioning 的方式,以及最佳的比對次序。

  60. 語音與歌聲合成

    • 英文名稱: Speech and Singing Voice Synthesis
    • 計畫編號:
    • 主持人: 張智星、黃紹華
    • 補助單位: 清蔚科技
    • 計畫執行期間: 2001/8/1 to 2002/7/31
    • 關鍵詞: Audio signal processing, speech synthesis, singing voice synthesis, sinusoidal modeling
    • 摘要簡介:
      由於電腦與網路科技的發達,多媒體人機介面的需求與應用層次也越來越廣泛。對於多媒體的處理,不外乎辨識、合成、壓縮與傳送。在先前相關的計畫中,我們已經進行了對於語音與旋律的辨識,在本計畫中,我們將進一步探討語音與歌聲的合成,以建立實用化的多媒體人機介面系統。

  61. 語音與音樂訊號的比對方法與加速機制

    • 英文名稱: Music/Speech Information Retrieval and Their Speedup Mechanisms
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 清蔚科技
    • 計畫執行期間: 2001/5/1 to 2002/7/31
    • 關鍵詞: 多媒體資訊檢索、音樂資訊檢索、語音檢索、圖形辨識、動態規劃、基頻分析、數位訊號處理
    • 摘要簡介:
      隨著電腦與網路 科技的爆炸性發展,多媒體資訊在網路流通的數量也越來越大,因此如何以各種技術來對多媒體資訊進行檢索與分類,變成為一個重要的問題。本計畫預計研究開發以「以內容為主的語音/音樂檢索系統」為主軸的相關技術,重點將放在如何開發適當的比對機制,並且如何針對大型資訊檢索系統來進行最佳化,以使比對時間越短越好。

  62. 以內容為主的多媒體檢索系統 ─ 由軟體到硬體的快速雛形與發展環境

    • 英文名稱: A Fast Prototyping Environment for Content-based Multimedia Information Retrieval
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 鈦思科技
    • 計畫執行期間: 2000/12/1 to 2001/12/31
    • 關鍵詞: 數位訊號處理、圖形辨識、多媒體檢索、影像處理、快速雛形
    • 摘要簡介:
      隨著電腦與網路資訊的爆炸性發展,多媒體資訊檢索技術的需求與挑戰也與日俱增。 多媒體資訊檢索研究必須結合不同領域的知識與技術,包括數位訊號處理、影像處理、音訊處理、自然語言處理,資料庫技術,網路技術,Data Mining,Agent等。而智慧型人機介面的需求與應用層次也越來越廣泛。近年來,更由於sensor technology的進步,帶動了圖形辨識 (Pattern Recognition) 的實用化。因此,以辨識技術為基礎的智慧型多媒體檢索或辨識系統也隨處可見,例如語音辨識、語者辨識、人臉辨識、手寫字辨識、歌聲辨識、名片辨識等。

      本計畫預計研究開發以「以內容為主的多媒體檢索系統」為主軸的相關技術,重點將放在如何以現有的 MATLAB/Simulink/Toolboxes 來進行由軟體到硬體的快速雛形發展(Fast Prototyping),並開發出相關的發展環境與人機介面。我們將以各種多媒體檢索或辨識系統來進行開發與測試,例如語者辨識(Speaker Recognition)、語音辨識(Speech Recognition)、人臉辨識(Face Recognition System)、曲調辨識(Melody Recognition)等。

      目前多媒體檢索都是以軟體為主,但若要將之應用範圍擴大,則需考慮將其硬體化,以便能使用於日常生活,如手機、PDA,以及各種家用電器用品。從軟體到硬體的過程,除了要將演算法改為適合硬體運算的方法外,還要考慮在硬體方面的各種實際限制,例如記憶體的限制、由浮點數轉至定點數所造成的計算誤差、計算速度的降低、輸出/輸入的介面限制等,這些都是我們要考慮的因素。

      在傳統的作法中,由軟體至硬體的轉換過程完全要靠人工來完成,其中包含了許多「嘗試錯誤」的過程,本計畫將此過程盡量自動化,利用 MATLAB/Simulink/Toolbox 的各種現成功能,嘗試將在 Simulink 環境下所發展的辨識系統(如語者辨識、語音命令辨識、曲調辨識)轉換到 TI 的 67xx 系列的硬體平台。此外,我們也將發展相關的發展環境與介面,嘗試將 Simulink 的各種辨識系統轉換至更低階的版子,如 8051 等。

  63. 音樂檢索技術的加速與改良

    • 英文名稱: Efficient and Effective Techniques in Music Information Retrieval
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 清蔚科技
    • 計畫執行期間: 2000/9/1 to 2001/8/31
    • 關鍵詞: Music Information Retrieval, Multimedia Information Retrieval, Nearest Neighbor Search
    • 摘要簡介:
      隨著電腦與網路資訊的爆炸,資訊檢索技術的需求與挑戰也與日俱增。資訊檢索研究必須結合不同領域的知識與技術,包括自然語言處理,資料庫技術,網路技術,Data Mining,Agent等。而智慧型人機介面的需求與應用層次也越來越廣泛。近年來,更由於sensor technology的進步,帶動了圖形辨識 (Pattern Recognition) 的實用化。因此,以辨識技術為基礎的智慧型人機介面也隨處可見,例如語音辨識、語音合成、手寫字辨識、歌聲辨識、名片辨識等。

      本計畫預計研究開發以「以歌選歌」系統為主軸的相關檢索與加速技術,並整合語者、語音辨識之技術,使開發出來的智慧型點歌系統,不但能接受使用者的歌聲、語音輸入,並亦能在吵雜的環境中,迅速正確地判斷歌聲、語音、笑聲等,使辨識的結果更為準確。此外,我們還要研究各種加速方法,使辨識所花的時間越少越好,並嘗試將這些方法運用於不同平台上(如 Linux、Windows CE、Palm、家電產品等),以使所開發出來的智慧型點歌系統能應用於日常生活之中。

      在先前的相關計畫中,我們已經開發出一套「以歌選歌」的系統,在此系統中,使用者可以用八秒的歌聲輸入(也可以可用唱的、哼的,或用樂器演奏),然後就能在5-10秒內,從500首歌曲中搜尋出最相近的前20名,並依相似度大小排列。本計畫將加速原先的點歌系統的比對程序,並整合語者番段辨識之技術,使開發出來的智慧型點歌系統,不但能接受使用者的歌聲、語音輸入,並亦能迅速在吵雜的環境中,正確判斷歌聲、語音、笑聲等,用以接受使用者訊號之輸入。

  64. 現有影像/語音處理研究典範於醫療自動化之缺失與改進 - 以核磁共振醫療輔助診斷系統之影像處理即時化及輸入語音化為案例

    • 英文名稱: On-line Image Processing and Voice Activation in Magnetic Resonance Computer-Aided Diagnosis: A Strategy for Overcoming the Limitations in State of the Art Signal Processing Techniques
    • 計畫編號:
    • 主持人: 傅家啟、彭振興、張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2000/8/1 to 2001/7/31
    • 關鍵詞: 醫療自動化,電腦輔助量測及診斷,核磁共振影像,動態規劃,自適臨界值法、模糊C平均法,中間值切斷法,語音辨識,線性預測編碼,倒頻譜,動態時間校準,隱藏式馬可夫模型,最優組合搜尋法
    • 摘要簡介:

      自醫療設備數位化後,醫療自動化為一重要之研究課題,而電腦輔助診斷為醫療自動化之一主要工具,雖然已累積大量研究成果及經驗,甚至已有商品化之產品。然而不論是影像處理或是語音辨識,一般而言,因影像處理之演算時間過長及語音辨識之效度過低。導致現場之接受度未如預期,同時亦限制醫療自動化醫療研究成果對於社會之貢獻。

      核磁共振首次提供非侵入性準確測定新血管系統正常功能的方法,因其為非侵入性量測易被受測者接受且圖像清晰,因此為一甚具有發展潛力的診斷異常病變及建立預防性醫學之工具。核磁共振對於靜態器官診斷雖已取得廣泛的應用,但尚未普及於動態器官(如心血管系統)的診斷。動態器官取樣資訊量需遠大於靜態器官,而現有心內(外)膜邊界之演算法演算時間甚長,無法滿足即時處理動態器官之資訊量。

      就電腦輔助診斷系統之使用者而言,有效語音取檔為一甚受歡迎之功能仍甚為需要,唯一之要求為高辨識率及高穩定性。現有商用軟體對於語音取檔之績效,測試結果未達現場使用之要求。原因為商用產品發展之對象為非特定語者大量字彙,因而降低辨識率及穩定性。就電腦輔助診斷系統而言,發展一高辨識率之小眾少量字彙語音辨識演算法為一使電腦輔助診斷系統更具人性化之主要功能。

      因醫療自動化之演算法為工程研究者所研發,傳統上常偏向實驗室工程人員之觀點,未必能符合現場之需求而導致低接受度。本計畫之目的為以現場使用者之需求發展一發展一即時心室內外膜邊界檢測演算法及語音取檔演算法。如本計畫證實確實可行並為現場接受,不但可對傳統之研究典範建立一新的思考方向,研究之成果亦可直接有益於社會公眾。

  65. 整合語音辨識與合成的以歌選歌系統

    • 英文名稱: On the Integration of Speech Recognition/Synthesis into a Content-based Music Retrieval System
    • 計畫編號:
    • 主持人: 張智星、黃紹華
    • 補助單位: 清蔚科技
    • 計畫執行期間: 2000/8/1 to 2001/7/31
    • 關鍵詞: 語音辨識、語音合成、歌聲辨識、數位訊號處理、圖形辨識
    • 摘要簡介:

      由於電腦與網路科技的發達,智慧型人機介面的需求與應用層次也越來越廣泛。近年來,更由於sensor technology的進步,帶動了圖形辨識 (Pattern Recognition) 的實用化,因此,以辨識技術為基礎的智慧型人機介面也隨處可見,例如語音辨識、語音合成、手寫字辨識、歌聲辨識、名片辨識等。

      本計畫預計研究開發以歌選歌系統,並整合語音辨識與語音合成之技術,使開發出來的智慧型點歌系統,不但能接受使用者的歌聲輸入,並亦能接受語音訊號的輸入,而且系統本身具有語音合成之功能,能夠以語音回覆有趣之訊息,或以與因引導初學者如何使用這套系統。

  66. 清華大學「非同步引導式遠距教學系統」推動計畫

    • 英文名稱: Asynchronous Distance Learning Based on a Web Guiding System
    • 計畫編號:
    • 主持人: 王小川、黃一農、張智星、楊叔卿
    • 補助單位: 教育部
    • 計畫執行期間: 2000/1/1 to 2000/12/31
    • 關鍵詞: Web-based learning, asynchronous distance learning
    • 摘要簡介:
      近年,網際網路(Internet)不僅成為全世界最受歡迎的媒體,並成為國際間資訊競爭的利器。網際網路的應用已然成為衡量各國資訊競爭力的重要指標。透過VOD (Video on Demand) 和 HTML的引導式網頁教學方式,其無遠弗屆的功能,使得網路教學逐漸成為教學的配備與潮流,它不僅輔佐傳統教室現場教學,也能獨立建構為虛擬教室,使學生有多元的選擇學習機會,接觸資訊社會的學習環境。 使用VOD的好處是比較具真實性,透過Video,彷彿在教室上課一樣,老師授課的聲音影像等傳授方式都可立即感受到,此外,老師的教材也不需事先特別安排或處理,老師不僅可以像平時在教室中教學一樣,使用投影片,也可利用白板解說(如導數學公式等);但其缺點是需使用較高的頻寬,同時對於文字的解析度稍差。至於使用HTML的好處就是使用的頻寬較低,文字方面的解析能力也較令人滿意,尤其在學習上,比較容易反覆閱讀,不像用Video有連續播放的學習壓力。不過,使用HTML卻較易與老師有疏離感,不具真實性,老師也為了配合HTML的展現方式,需額外花時間與人力製作教材。最新的網路教學方式--引導式網頁教學,是綜合VOD和 HTML的技術,互補彼此的優缺點,授課教師將教材或錄影帶以網頁的形式放在網站上,學生可隨時透過網路閱讀教材,並參與討論,使得教師與學生有雙向溝通的機會。如此的學習方式,除可提供較多的多元化進修管道外,亦可提升教學品質,達到學術交流、資源共享的目的。預期將能更有效地提升傳統教學的效能,並擴大教育傳播的範疇及能力。十年樹木,百年樹人。教育環境的改進,影響深遠。藉由網路遠距教學環境的成立,我國NII政策鼓勵全民上網,教育部倡導「終身學習」,都可藉此宣揚與落實。

      本校自85年起即積極參與遠距教學計畫,網路教學相關技術與師資都在培養中,各類網路教學方式與成果都逐漸顯現,計算機中心不斷地提供改進各類技術支援,即將引進的新技術『引導式網路教學系統』,是國內各大學之首創,藉由它的幫助可讓教師更完整且清晰的傳達授課的內容,學生們也因而有更好的學習環境。此外,計算機中心還計畫提供更多的網路教學工具來協助老師嘗試。讓老師帶領學生一起迎向跨世紀的資訊新世代,在網路社會中建造創新且具挑戰的優勢。相關資料與成果可見本校首頁:http://www.nthu.edu.tw/ 及非同步教學首頁:http://sailnet.eden.nthu.edu.tw/。

  67. 以聲紋與人臉為主的生物認証系統

    • 英文名稱: Biometric Identification System Based on Face and Voice
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 伍豐科技
    • 計畫執行期間: 1999/10/1 to 2000/7/31
    • 關鍵詞: 生物認證、圖形辨識、聲紋比對、語者辨識、人臉辨識、數位訊號處理、影像處理
    • 摘要簡介:

      由於電腦與 網路科技的發達,認證 (Authentication) 的需求與應用層次也越來越廣泛。近年來,更由於sensor technology的進步,帶動了生物認證 (Biometric identification) 的實用化,這是學術界及工商界甚為重視的一種安全認證方式,其認證所用到的生物特徵包含指紋、掌紋、語音、人臉、虹膜、手型、耳型、嘴唇運動模式等,此種認證的優點為偽造及破解困難、使用方便(不擔心遺失)、適用性廣泛(可依安全性需求來調整)。而缺點則在於技術層次較高、需要較多的軟硬體支援,且需要和善的人機介面,以充分發揮其功能。

      本計畫預計研究開發以聲紋與人臉為基礎的生物認證系統,希望能應用現有的軟硬體技術,開發出穩固、可用的軟體系統原型,以為生物認證的實用化、普及化與商品化進行先導研究與探勘。

  68. 直流變頻空調機控制策略發展

    • 英文名稱: Design and developments of the control strategy for a DC variable-frequency air conditioner
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 工研院能資所
    • 計畫執行期間: 1999/10/1 to 2000/10/31
    • 關鍵詞: 系統辨識、控制策略、PID控制、Fuzzy控制、電腦輔助控制系統設計
    • 摘要簡介:

      直流變頻空調機是一個典型的非線性時變系統,其特性隨著壓縮頻率的不同而有不同的變化,因此在系統辨識及控制策略方面造成較高的困難度。然而,直流變頻空調機的控制一直是一個很重要的課題,此可由一般日系家電產品(特別是冷氣機)所強調的「智慧型控制」或「Neuro-fuzzy control」而略窺一二。

      本計畫將以漸進方式循序嘗試直流變頻空調機的系統辨識與控制策略。初期將以傳統的線性系統辨識及PID控制為主,待累積夠多經驗後,將進一步嘗試以Gain scheduling的方式來進行非線性控制,最後再以Fuzzy控制來達到整個系統的最佳化。

  69. 神經模糊系統的誤差預估與結構辨識

    • 英文名稱: Error Estimation and Structure Identification of Neuro-fuzzy Systems
    • 計畫編號: NSC 89-2213-E-007-067
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 1999/8/1 to 2000/7/31
    • 關鍵詞: 軟式計算(Soft Computing)、計算智能(Computational Intelligence)、系統辨識(System Identification)、最小平方法(Least-squares Estimator)、遞迴式最小平方法(Recursive Least-squares Estimator)、資料模型化(Data Modeling)、誤差預估(Error Measure Estimation)、結構辨識(Structure Identification)、類神經網路(Artificial Neural Networks)、模糊邏輯(Fuzzy Logic)、神經模糊系統(Neuro-fuzzy Systems)、遺傳演算法(Genetic Algorithms)、模擬退火法(Simulated Annealing)、圖型識別(Pattern Recognition)、資料探勘(Data Mining)、知識發掘(Knowledge Discovery)
    • 摘要簡介:
      在上年度的國科會計畫("軟式計算的誤差預估與結構辨識")中,我們完成了下列事項:

      1. 以遞迴式最小平方法(Recursive least-squares estimator,簡稱RLSE) 為基礎,發展出計算 leave-one-out error 的 incremental formula,可用於 neuro-fuzzy modeling 的結構辨識(Structure identification)及歧異點的偵測(Outlier detection)
      2. 以 leave-one-out error 為基礎,再引用 sequential forward input selection 或 exhaustive input selection,來進行客觀且迅速的輸入選取及結構辨識。

      有關於leave-one-out error的 incremental formula以及相關的輸入變數選取方法,已發表在1998年5月的IEEE International Conference on Fuzzy Systems [Jang98fuzz],類似的方法亦可用於歧異點的偵測(Outlier detection),已發表在1998年10月的International Joint Conference on Information Science [Jang98jcis]。完整的推導與相關的應用則已交付 IEEE Transactions on Fuzzy Systems 審查中[Jang98itfs]。本年度之國科會計畫乃在延續上年度之計畫,其目的有三:

      1. 延續並應用上年度之研究心得,進一步使用平方根版(Square-root version)的遞迴式最小平方法來進行神經模糊模型(Neuro-fuzzy models)的leave-one-out error 的計算,以盡量降低大量數值運算及電腦內部有限精準度所帶來的捨去(Truncation)及進位(Round-off)誤差。
      2. 進一步嘗試各種結構辨識的方法,包含GMDH (Group Method of Data Handling) [] 的方法,以及使用於建構式學習(Constructive learning)及破壞式學習(Destructive learning)的Incremental formulas。(此類formulas 可視為recursive least-squares estimator in the number of parameters,因此相當迅速。若再加上前述 square-root version of LSE,則計算可說是又快又準。)
      3. 繼續維護Working Group on Data Modeling的首頁(此為在IEEE Neural Networks Council Standards Committee之下的Subcommittee,由 Texas A & M University 資訊系的Prof. John Yen委託我本人於1996年底開始建置),並加強其內容與服務。

      軟式計算(Soft computing)是近年來Professor Lotfi Zadeh(模糊邏輯之父,U.C. Berkeley的榮譽退休教授)提倡的新方向,其精神乃是結合類神經網路(Artificial neural networks)及模糊邏輯(Fuzzy logic)的優點,並輔以不須導式的最佳化(Derivative-free optimization)方法,來針對取樣資料(Sample data)及既有的專家知識(Expert knowledge)進行模型的分析及微調(Fine tuning),以建立一個具有學習能力的智慧型系統,並可對於時變(Time-varying)的環境進行自我即時調適(On-line adaptation),以獲取最佳的效能。

      在模型的選取上,軟式計算是偏向於使用類神經網路或模糊推演系統這兩類模型。由於類神經網路是具有學習或調適能力(Learning or adaptation capability)的黑箱模型(Black-box model),而模糊推演系統(Fuzzy inference systems)則是能表示專家知識的模糊規則庫系統(Fuzzy rule-based systems),因此軟式計算特別強調這兩者的結合,形成兼具兩者之長的神經模糊推演系統(Neuro-fuzzy inference systems),其應用範圍相當廣泛,舉凡對於資料或專家知識的模型化(Modeling),均可用得上。然而在實際的應用上,仍有許多問題亟待克服,例如輸入變數的選取(Input selection)和變形(Transformation)、輸入空間的分割(Input space partitioning)、模糊規則數目的選定、破壞式及建構式的學習(Destructive and constructive learning)等等,這些問題都是在進行結構辨識(Structure identification)時所需解決的問題,也都是本計畫的研究重點。(這些問題在前一年度的計畫已有初步成果,但仍有許多 potential approaches 尚未探討,用於計算 leave-one-out error 的平方根版的遞迴式最小平方法也尚未推導完全。)

      神經模糊系統的基本學習方法為逆傳導法(Back-propagation),即為簡單的梯度下降法(Gradient descent)或是最速下降法(Steepest descent),更複雜先進的方法則是在統計或非線性迴歸(Nonlinear regression)中常用到的Gauss-Newton Method或是Levenberg-Marquardt Method。但是這些方法都須要用到梯度向量(Gradient vectors)而梯度向量在複雜系統中並不容易計算,因此對於較複雜的大型系統,軟式計算偏向於使用不須導式的最佳化方法(Derivative-free optimization)[Jang97book],例如遺傳演算法(Genetic algorithms)、模擬退火法(Simulated annealing)、下坡式Simplex搜尋(Downhill simplex search)、雜亂搜尋(Random search)、它布搜尋(Tabu search)等。在我們的研究中,是固定非線性參數,而盡量採用最小平方法來辨識線性參數,其好處為計算迅速,且 mathematically tractable。若計算資源豐富,則亦可考慮以上述非線性的方法或不需導數的方法來進行非線性參數的微調。

      為提高台灣在此方面研究的知名度,並促進技術及資料的交流,本計畫將繼續維護Working Group on Data Modeling的首頁,此為在IEEE Neural Networks Council Standards Committee之下的Subcommittee,由Prof. John Yen委託本人於1996年底開始建置,URL地址為:http://www.cs.nthu.edu.tw/~jang/benchmark。本計畫研究開發的成果,也希望能夠以 CGI (Common Gate Interface) 的方式,置於此網頁上,以供有興趣之研究同好上傳 Training data 及 Test data,由伺服器執行誤差預估及結構辨識後,在立刻將結果傳回 Client 端,以供研究同好進行比較與測試。

  70. 新聞分類與文件摘要技術開發

    • 英文名稱: Classification and Summarization for On-line News
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 太一信通
    • 計畫執行期間: 1999/8/1 to 2000/7/31
    • 關鍵詞: 太一新聞、文件分類、新聞分類、網頁自動生成、文件摘要、中文字 詞語料庫、語意分析
    • 摘要簡介:

      太一新聞目前所提供的網路新聞服務是擷取多個網站的新聞資料,並將其分門 別類,除了方便讀者根據類別來閱讀,同時也可以比較多家新聞網站對同一事件的報導。針對新聞分類這一項工作,如果能夠增加電腦分類的精確度使其達到我們預期的分類結果,且過程中不需要人員介入協助,將可大量地節省此項工作所花的時間。

      而網際網路的發展一日千里,網站上的文章資訊也多如繁星。當使用者面對網路上與日俱增的文章時,常有不知從何找起之憾。雖然目前已經有許多搜尋引擎來讓使用者容易在網際網路上搜尋適用的文件,但搜尋引擎所提供的簡介或是過短,甚者有誤導之疑。因此需要為網路上文件製作正確的摘要,有效地為使用者提供所需的資訊。

      本計畫預計研究開發一系列的網路資源探勘、文字分析、網頁程式設計,以及多種分類及摘要技巧,以便於提供文件摘要和新聞分類的完善解決方案。

  71. 跳頻網台分析

    • 英文名稱: The analysis of radio communication networks
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 中科院
    • 計畫執行期間: 1999/7/1 to 2001/6/30
    • 關鍵詞: 聚類分析、圖形辨識、無線電網台訊號分析
    • 摘要簡介:

      無線電網台分析器(Radio Network Analyzer)的任務是從截收到的無線電訊號中,逐一辨識出相對映之無線電通信機之發話、無線電通信機,以及無線電網。在此提及的各項名詞存在一個階層式的關係:

      1. 無線電網是由數個無線電通信機所組成
      2. 無線電通信機可進行不限定次數之發話
      3. 每一個發話是由一連串的hop所組成

      截收器記錄下來的無線電訊號即是一連串的hop,而無線網台分析器的功能即是將hop歸類至可能之發話,並進而分析計算出此發話可能源自某一無線電通信機,以及此無線電通信機可能隸屬的無線電網。因此無線電網台分析可分為三步驟:

      1. 發話分析:將hop 歸類到某一發話
      2. 無線電通信機分析:將發話歸類到某一無線電通信機
      3. 無線電網分析:將無線電通信機歸到某一無線電網

      在這三個步驟中,有一個共同的分析方法,就是必須將資料加以聚集及分類,因此本計畫的首要目標即是嘗試以各種群聚分析(Clustering Analysis) 及圖形辨識(Pattern Recognition)的方法,來進行無線電網台分析。

      在前一年的計畫(無線電通信之網台分析)中,我們已經完成了一個基本軟體(無線電網台分析工具箱, Radio Network Analysis Toolbox),可對無線電通信網進行基本的網台辨識與定位。此工具箱可在兩網三台的情況下,針對兩個截收器的資料,進行下列各種網台分析,最後得到各個通訊機的位置資訊。在本年度的計畫中,希望能改進此工具箱,使其功能更為強大,主要目標有下列各點:

      1. 可適用於多網多台(第一年預期目標為五網五台,第二年預期目標為八網八台)
      2. 可自動化地辨識通訊機變換位置
      3. 可自動化地辨識具有不同跳頻速率之跳頻通信機
      4. 可自動化地及時辨識敵我無線電信號

      若能及時完成上述主要目標,則可進行下列次要目標:

      1. 可適用於不同之偵測環境(雜訊、定頻訊號、廣播電台等)
      2. 可自動化地辨識無線電網變換頻率(或跳頻頻率組)
      3. 可自動化地調整分析規則及分析參數
      4. 可適用於多個訊號截收器

      本計畫預計完成一套MATLAB的程式庫,將包含進行無線電網台分析所須的各種圖形辨識、群聚分析、及軟式計算的各種方法。

  72. 有聲電子圖書館的自動化技術與工具

    • 英文名稱: A Study of Techniques and Tools for Audio/Textual Digital Library
    • 計畫編號:
    • 主持人: 張俊盛、唐傳義、張智星
    • 補助單位: 國科會
    • 計畫執行期間: 1998/8/1 to 1999/7/1
    • 關鍵詞: 電子化有聲詞典、資訊檢索、圖書分類、網路搜尋引擎
    • 摘要簡介:

      製作有聲電子圖書需要整合文字、聲訊、語音合成等等多種媒體與技術。除了此一整合工作,尚需要加入大綱、索引等結構性的資料。對整體有聲電子圖書館而言,更必須具備電子化的圖書目錄、主題索引、甚而書內與書間的互見(cross references)等等資訊。如此,有聲電子圖書才能提供友善、互動式界面。目前這些作業完全都是手工進行,工作煩瑣、重複,十分耗費人力,有必要研發自動化的技術與工具。另外為了節省儲存空間、提高聲訊品質,相當需要錄音訊號的壓縮、強化、消除背景雜訊、決定發聲者位置等等聲訊處理技術。

      電腦的多媒體環境,已經日趨成熟,可以善加利用來建立有聲的電子圖書館,消除視障者接觸資訊的障礙。高速的CPU、彩色螢幕、音效卡、視窗作業環境都已經成為標準配備。多媒體的處理作業也慢慢形成工業界的標準。建立有聲電子圖書館的其他社會、技術條件也逐漸改善。例如:容易取得許多出版品的電子版本;語音技術十分成熟,可以在標準的PC配備下,由文字合成相當自然的語音。

  73. 軟式計算中的誤差預估與結構辨識

    • 英文名稱: Error Estimation and Structure Identification in Soft Computing
    • 計畫編號: NSC88-2213-E-007-007
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 1998/8/1 to 1999/7/1
    • 關鍵詞: 軟式計算(Soft Computing)、資料模型化(Data Modeling)、類神經網路(Artificial Neural Networks)、模糊邏輯(Fuzzy Logic)、系統識別(System Identification)、圖型辨識(Pattern Recognition)、資料探勘(Data Mining)、知識發掘(Knowledge Discovery)
    • 摘要簡介:

      本計畫乃在延續上年度之國科會計畫("軟式計算在資料模型化的應用"),其目的有三:

      1. 延續並應用上年度之研究心得,以裨益於將今年研究重點集中於神經模糊模型(Neuro-fuzzy models)之誤差預估(Error measure estimation)與結構辨識(Structure identification)。
      2. 將所得方法與心得應用於WWW (World Wide Web)上的實際問題,例如user modeling, on-line news categorization, prediction of file access intervals in a proxy server等,並和傳統方法比較。
      3. 繼續維護Working Group on Data Modeling的首頁(此為在IEEE Neural Networks Council Standards Committee之下的Subcommittee),並加強其內容。

      軟式計算(Soft computing)是近年來Professor Lotfi Zadeh(模糊邏輯之父,任教於U.C. Berkeley)提倡的新方向,其精神乃是結合類神經網路(Artificial neural networks)及模糊邏輯(Fuzzy logic)的優點,並輔以不須導式的最佳化(Derivative-free optimization)方法,例如遺傳演算法(Genetic algorithms)及模擬退火法(Simulated annealing)等,來對資料及既有的專家知識(Expert knowledge)進行分析及微調(Fine tuning),以建立一個具有學習能力的智慧型系統,並可對於時變(Time-varying)的環境進行自我即時調適(On-line adaptation),以獲取最佳結果。

      在模型的選取上,軟式計算是偏向於使用類神經網路或模糊推演系統這兩類模型。由於類神經網路是具有學習或調適能力(Learning or adaptation capability)的黑箱模型(Black-box model),而模糊推演系統(Fuzzy inference systems)則是能表示專家知識的模糊規則庫系統(Fuzzy rule-based systems),因此軟式計算特別強調這兩者的結合,形成兼具兩者之長的神經模糊推演系統(Neuro-fuzzy inference systems),其應用範圍相當廣泛,舉凡對於資料或專家知識的模型化(Modeling),均可用得上。近幾年來我們已經可以看到使用類神經網路或模糊邏輯(或兩者兼備)的小型家用電器產品,例如洗衣機、吸塵器、電動刮鬍刀、冷氣機、照相機、V8攝錄放影機等。更大型的應用則可見於汽車反鎖煞車系統(ABS,Anti-lock Braking Systems)及傳動系統(Transmission systems)的控制,以及電梯、電車的自動控制。然而在實際的應用上,仍有許多問題亟待克服,例如輸入變數的選取(Input selection)和變形(Transformation)、輸入空間的分割(Input space partitioning)、模糊規則數目的選定、破壞式及增長式的學習(Destructive and constructive learning)等等,這些問題都是在進行結構辨識(Structure identification)時所需解決的問題,也都是本計畫的研究重點。尤其重要的是,我們希望能推導出能夠快速計算誤差指標(Error measure)的方法,才能正確的引導結構辨識的進行。

      神經模糊系統的基本學習方法為逆傳導法(Back-propagation),即為簡單的梯度下降法(Gradient descent)或是最速下降法(Steepest descent),更複雜先進的方法則是在統計或非線性迴歸(Nonlinear regression)中常用到的Gauss-Newton Method或是Levenberg-Marquardt Method。但是這些方法都須要用到梯度向量(Gradient vectors)而梯度向量在複雜系統中並不容易計算,因此對於較複雜的大型系統,軟式計算偏向於使用不須導式的最佳化方法(Derivative-free optimization)[Jang97book],例如遺傳演算法(Genetic algorithms)、模擬退火法(Simulated annealing)、下坡式Simplex搜尋(Downhill simplex search)、雜亂搜尋(Random search)、它布搜尋(Tabu search)等。這些方法各有優缺點,本計畫的另一重點則在於找出如何搭配 Derivative-free 及 Derivative-based這兩種最佳化方法,以使模型選取的工作能順利進行。

      近年來由於網際網路(Internet)日漸興盛,WWW (World Wide Web)的使用越來越普遍,各種電子資訊的流通與取得也是垂手可得。因此如何從大量的資料中找出有用的因果關係,便成為一個重要的課題。這方面的研究稱為資料探勘(Data Mining)或知識發掘(Knowledge Discovery),一般採用的方法有統計、粗糙集(Rough Sets)機器學習(Machine Learning)中的ID3、非參數式回歸(Nonparametric regression)中的CART(Classification and Regression Trees)等。本計畫將嘗試以軟式計算及模型結構選取的方法,用在WWW上的資料探勘及知識發掘等,例如 User modeling, on-line news categorization 及 File access interval prediction等。

      為提高台灣在此方面研究的知名度,並促進技術及研究的交流,本計畫將繼續維護Working Group on Data Modeling的首頁,此為在IEEE Neural Networks Council Standards Committee之下的Subcommittee, URL地址為:"http://www.cs.nthu.edu.tw/~jang/benchmark".

  74. 無線電網台分析

    • 英文名稱: The Analysis of Radio Communication Networks
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 中科院
    • 計畫執行期間: 1998/8/1 to 1999/7/1
    • 關鍵詞: Data Clustering, Pattern Recognition, System Modeling and Simulation
    • 摘要簡介:

      無線電網台分析器(Radio Network Analyzer)的任務是從截收到的無線電訊號中,逐一辨識出相對映之無線電通信機之發話、無線電通信機,以及無線電網。在此提及的各項名詞存在一個階層式的關係:

      1. 無線電網是由數個無線電通信機所組成
      2. 無線電通信機可進行不限定次數之發話
      3. 每一個發話是由一連串的hop所組成

      截收器記錄下來的無線電訊號即是一連串的hop,而無線網台分析器的功能即是將hop歸類至可能之發話,並進而分析計算出此發話可能源自某一無線電通信機,以及此無線電通信機可能隸屬的無線電網。因此無線電網台分析可分為三步驟:

      1. 發話分析:將hop 歸類到某一發話
      2. 無線電通信機分析:將發話歸類到某一無線電通信機
      3. 無線電網分析:將無線電通信機歸到某一無線電網

      在這三個步驟中,有一個共同的分析方法,就是必須將資料加以分類,因此本計畫的首要目標即是嘗試以各種群聚分析(Clustering Analysis) 及圖形辨識(Pattern Recognition)的方法,來進行無線電網台分析。傳統的群聚分析有下列數種:

      1. K-means clustering
      2. ISODATA
      3. Hierarchical clustering (single, complete, and average linkage)

      傳統的圖形辨識方法有下列數種:

      1. K nearest neighbor rule (KNNL)
      2. Histogram analysis
      3. Kernel and window estimators
      4. Multi-dimensional Gaussian density approach

      這些傳統方法都是我們將嘗試的方法。除此之外,我們亦可加入以類神娙網路(Artificial Neural Networks) 或模糊邏輯(Fuzzy Logic)為基礎的各種軟式計算(Soft Computing) 的方法,例如:

      1. Multilayer perceptrons (MLPs)
      2. Radial basis function networks (RBFNs)
      3. Adaptive networks
      4. Fuzzy c-means clustering
      5. Adaptive fuzzy classifications
      6. Derivative-free optimization:
        • Genetic algorithms
        • Simulated annealing
        • Random search
        • Downhill simplex method

      本計晝預計完成一套MATLAB的程式庫,將包含進行無線電網台分析所須的各種圖形辨識、群聚分析、及軟式計算的各種方法。

  75. 網站檢索搜尋引擎與網路即時新聞服務

    • 英文名稱: Web Search Engines and On-line News Service and Technology
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 太一信通
    • 計畫執行期間: 1998/7/1 to
    • 關鍵詞: 搜尋引擎、網路自動機、新聞自動分類、聚叢分析、網頁自動生成、反轉檔案、語意分析
    • 摘要簡介:

      當使用者面對網路上與日俱增的文章時,常有不知從何找起之憾,如果能夠先行蒐集網路上的各類文章,處理成便於查詢的反轉檔案(Inverted File),再由搜尋引擎利用使用者提供相關字詞做為查詢項,即可輕易地找出使用者想要的資訊。

      網路即時新聞服務的興起,使得一般的使用者可以輕易的瀏覽世界各地、各種文字的新聞網。然而想要閱讀同一事件的報導,就必須不斷的切換螢幕,連結不同的網站,相當不便利。網路速度緩慢的狀況下,更屬不可行。如果能夠自動蒐集很多新聞網站的資料。綜合各個網站的新聞網頁,加以分類整理,形成一個結構井然有序的新聞集錦(Web News Capsule),就可以解決上述問題。

      本計畫預計研究開發一系列的網路資源探勘、文字分析、網頁程式設計,以及多種檢索技巧,以便於提供每日網路新聞集錦和搜尋引擎的完善解決方案。

  76. 網路即時新聞服務的技術開發

    • 英文名稱: Web On-line News Service and Technology
    • 計畫編號:
    • 主持人: 張智星、張俊盛
    • 補助單位: 太一信通
    • 計畫執行期間: 1998/3/1 to 1998/7/1
    • 關鍵詞: 網路自動機、新聞自動分類、聚叢分析、網頁自動生成
    • 摘要簡介:

      網路即時新聞服務的興起,使得一般的使用者可以輕易的來去世界各地、各種文字的新聞網站,瀏覽當日的新聞。然而想要閱讀同一事件的報導,就必須不斷的切換螢幕,連結不同的網站,相當不便利。網路速度緩慢的狀況下,更屬不可行。如果能夠自動蒐集很多新聞網站的資料。綜合各個網站的新聞網頁,加以分類整理,形成一個結構井然有序的新聞集錦(Web News Capsule),就可以解決上述問題。本計畫預計研究開發一系列的網路資源探勘、文字分析、網頁程式設計,提供每日網路新聞集錦的完整解決方案。

  77. 清蔚園網路書院發展計畫

    • 英文名稱: Cyber University
    • 計畫編號:
    • 主持人: 黃一農、楊叔卿、張智星
    • 補助單位: 教育部
    • 計畫執行期間: 1998/1/1 to 1998/7/1
    • 關鍵詞: WWW, Distance Learning, Cyber University
    • 摘要簡介:

      網際網路(Internet)自1993年開始興起,在短短數年間不僅成為世界性最受歡迎的媒體,而且已成為國際間資訊競爭的利器,甚至成為衡量各國資訊競爭力的重要指標。網際網路在臺灣開始普及,不過是近兩、三年間的事,但卻已發展成十幾至二十幾歲青少年生活中日益重要的資訊媒介,例如,依據最近天下雜誌八十六年十一月份所進行台灣第一次全面性的「網際網路的使用調查」結果指出,目前六成六的網路族未滿三十歲。相對地,目前四十歲以上的社會中堅份子(包含大多數的學術界人士和教育主管官員),對網路文化卻頂多具有一模糊的印象。亦即,網路文化的興起已明顯在社會上造成愈來愈深的代溝。

      網際網路雖然具備各種不同功能,但目前其在臺灣的應用,卻多偏重於商業性質,或僅拿來做為個人、機關或公司行號的介紹。許多人甚至更利用其既隱蔽又開放的特性,開設具有商業行為的情色網站,這些網站不僅數目眾多,而且往往都是目前中文網路世界中最熱門的站址。當我們社會的網路資源,有如此大的比例被用於處理這些情色的內容,那麼即使政府投資在硬體上的經費再多,都將因此被大量虛耗掉。此外,一個有心人如果要嘗試上網尋覓知性的內容時,卻會痛心發現台灣的網路文化竟是如此貧瘠,我們需要花費好大力量,才找得到少數一些較具內涵的網站。這是近年來最常聽到的聲音:「網際網路上沒有什麼好的中文網站」,有任教大學的教授視為理所當然地說:「我從不上中文的網站,中文站沒什麼好看的,我只上英文的」。

      在此時政府積極推動「三百萬人上網」,網路使用幾已成為全民運動,我們不禁要問:「中文網路發展應何去何從?」我們應思考:「在這種以西方科技文明主導的數位網路浪潮下,中文的網路文化在此新一代的媒體革命中應否佔有一席位置?又該是誰的責任?」我們相信唯有經由這種意識覺醒並鼓勵大家積極投入網路中文化的行動,華人未來的網路世界不致淪為英文文化的殖民地,尤其我們高級知識份子座擁高科技環境,相對地,在技術、資源較社會一般人優勢,更是責無旁貸,此故,雖然我們的時間和力量都相當有限,但我們有心付出,期盼能多少替這塊土地上的網路文化注入清新的血液。

      籌設清蔚園網際網路資訊園區(Web-based Information Park),並在其中開設各種虛擬博物館,如科學館、藝文館等,以舉辦大型的知性博覽會,並且規劃網路書院,以容納各種課程,進而有計劃培訓各級師資並成立地區性網路教學中心,結合有意願使用電腦高科技教學的各階層教師,就是我們目前努力的目標。這樣一個模仿真實博物館運作的大型網際網路資訊園區,在臺灣、甚至全世界都相當罕見。當一些公立的博物館必須花費數以幾十億計的經費購置土地並建築硬體時,而當網際網路正形成一無遠弗屆的溝通媒介之際,或許這樣一個「小而省」、「小而好」、「功能多媒體多元化」、「立足數位而放眼地球村」的全新類型的園區,是值得我們社會認真思考並努力的方向。

      我們計劃每年將提供近百項國內外各種類型的展覽,我們希望將來清蔚園網際網路資訊園中的展覽能更豐富地涵蓋藝文類(如國內外各種網路畫展)、科學類(如與天文、生態、理化或科技史等內容)和史地民俗類等不同面向,更有不同程度的網展內容,以適應不同教育背景的網友的需要,並加以累積,而透過網際展覽製作營的舉辦,我們也有機會將發展精緻網路文化的種籽,散布至社會許多角落。希望此一資訊園區能成為各種年齡層或不同教育程度的網友們吸取知識、擴展見聞的一處文化長廊,並提供社會一終生學習的重要渠道。希望藉此努力開拓遠距學習的另一個新世界,落實終身教育的理想。更希望能因此帶動有心人士的共同努力,讓中文的網路世界有機會成功地扮演網路世界知識領航的角色。

  78. 分散式多伺服器隨意視訊系統(III)(子計劃三) 智慧型查詢系統 (以歌選歌)

    • 英文名稱: An Intelligent Interface of Query by Singing in VOD (Video on Deman)
    • 計畫編號: NSC87-2213-E-007-013
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 1997/8/1 to 1998/7/1
    • 關鍵詞: Content-based Audio Retrieval, Pattern Recognition, Signal Processing
    • 摘要簡介:

      對於資料庫的查詢方面,除了給定關鍵字以進行一般的查詢外,更希望能更進一步,讓使用者能以聲音檔 (Audio Files) 或視訊檔 (Video Files) 的內容來編製索引及加速檢索。以KTV 為例,期望能做到 “以歌選歌”,也就是說,要讓歌者能清唱一段歌曲或旋律,電腦即以即時錄下音波,進行必要的數為信號處理,然後比對資料庫中的資料,依可能性列出所有可能的歌。除此以外,一個自然的延伸則是將歌者的歌聲進行處理後,找出各項特性(如音調及拍子準確性、音色與原歌者相似性等)來做自動評分。

      由於本子計畫牽涉到聲音訊號的處理、識別、分類等,所以需要各個領域特有的技術與研究相互配合,包含下列數項:

      1. 數位訊號處理 (DSP, Digital Signal Processing): 尤其是對於聲音訊號的轉換 (Transforms)與濾波 (Filtering),茲分述如下。
        • 轉換:音波訊號包含的資料量非常豐富,一段十秒鐘的聲音所佔的磁碟空間在未壓縮前約為80 Kbyte(8-bit解析度,8 KHz)。從時域 (Time Domain) 方面來看音波,通常所得有限,很難找出和語音識別相關的特徵量 (Features)。一般的作法則是從頻域 (Frequency Domain) 方面著手,亦即對音波進行離散傅立葉轉換 (Discrete Fourier Transform),算出前幾個低頻分量 (Low-frequency component)的係數,來代表所給音波的特性。其他還有各種不同的轉換和變形技巧,例如Wavelet Transform, Ceptral Analysis及, 他們各有各的長處和短處。
        • 濾波 (Filtering):音波的取得,一定多少會被不相關的訊號(即噪音)所污染。因此在進行音波的處理之前,一定要進行濾波。濾波的方式有很多種,最簡單的方式是將訊號通過一個低通濾波器 (Low-pass Filter)。更複雜的方法則是將此濾波器的特性變為即時可調 (On-line Adaptive) 。
      2. 圖形識別 (Pattern Recognition): 尤其是語音識別 (Speech Recognition) 及語者識別 (Speaker Recognition)。聲音訊號的量通常很大,所以在進行DSP以抓取特徵量後,仍需進行資料的縮減 (Data Reduction),以利圖形識別的進行。在這方面最常用到的方法是Condense及Editing。對於這兩種方法在語者辨認方面的應用,我們曾經加以改良,獲致不錯的結果。
      3. 軟式計算 (Soft Computing) : 包含類神經網路 (Artificial Neural Networks)、模糊邏輯 (Fuzzy Logic) ,以及各種無須導式 (Derivative-free) 的最佳化 (Optimization) 方法。在實作上,我們常常需要找出一個給定的目標函數的最小值,此目標函題可能已相當繁複,其梯度 (Gradient Vector) 可能難以計算,同此我們無法以傳統最佳化的方法來求解。解決之道乃選用軟式計算 (Soft Comping) 中的各種無須導式 (Derivative-free) 的方法,例如基因演算法 (Genetic Algorithms),模擬退火法 (Simulated Annealing),雜亂搜尋法 (Random Search Method),以及下坡Simplex法 (Downhill Simplex Method)。

  79. 軟式計算在資料模型化的應用

    • 英文名稱: Soft Computing in Data Modeling
    • 計畫編號: NSC87-2213-E-007-009
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 1997/8/1 to 1998/7/1
    • 關鍵詞: 軟式計算(Soft Computing)、資料模型化(Data Modeling)、類神經網路(Artificial Neural Networks)、模糊邏輯(Fuzzy Logic)、系統識別(System Identification)、圖型辨識(Pattern Recognition)、資料探勘(Data Mining)、知識發掘(Knowledge Discovery)
    • 摘要簡介:

      軟式計算(Soft Computing)是近年來Professor Lotfi Zadeh(模糊邏輯之父,任教於U.C. Berkeley)提倡的新方向,其精神乃是結合類神經網路(Artificial Neural Networks)及模糊邏輯(Fuzzy Logic)的優點,並輔以不須導式的最佳化(Derivative free Optimization)方法,例如遺傳演算法(Genetic Algorithms)及模擬退火法(Simulated Annealing)等,來對資料及既有的專家知識(Expert Knowledge)進行分析及微調(Fine tuning),以建立一個具有學習能力的智慧型系統,並可對於時變(Time-varying)的環境進行自我即時調適(On-line Adaptation),以獲取最佳結果。

      在模型的選取上,軟式計算是偏向於使用類神經網路成模糊邏輯這兩類模型。由於類神經網路是具有學習或調適能力(Learning or Adaptation Capability)的黑箱模型(Blackbox Model),而模糊推演系統(Fuzzy Inference Systems)則是能表示專家知識的模糊規則庫系統(Fuzzy Rule-based Systems),因此軟式計算特別強調這兩者的結合,形成兼具兩者之長的神經模糊推演系統(Neuro-Fuzzy Inference Systems),其應用範圍相當廣泛,舉凡對於資料或專家知識的模型化(Modeling),均可用得上。近幾年來我們已經可以看到使用類神經網路或模糊邏輯(或兩者兼備)的小型家用電器產品,例如洗衣機、吸塵器、電動刮鬍刀、冷氣機、照相機、V8攝錄放影機等。更大型的應用則可見於汽車反鎖煞車系統(ABS,Anti-lock Braking Systems)及傳動系統(Transmission Systems)的控制,以及電梯、電車的自動控制。然而在實際的應用上,仍有許多問題亟待克服,例如輸入變數的選取(Input Selection)和變形(Transformation)、輸入空間的分割(Input Space Partitioning)、模糊規則數(Number of Fuzzy Rules)的選定、破壞式及增長式的學習(Destructive and Constructive Learning)等等,這些都是本計畫的研究重點。

      神經模糊系統的基本學習方法為逆傳導法(Backpropagation),即為簡單的梯度下降法(Gradient Descent)或是最速下降法(Steepest Descent),更複雜先進的方法則是在統計或非線性迴歸(Nonlinear Regression)中常用到的Gauss-Newton Method或是Levenberg-Marquardt Method。但是這些方法都須要用到梯度向量(Gradient Vector)而梯度向量在複雜系統中並不容易計算,因此對於較複雜的大型系統,軟式計算偏向於使用不須導式的最佳化方法(Derivative-free Optimization),例如遺傳演算法(Genetic Algorithms)、模擬退火法(Simulated Annealing)、下坡式Simplex搜尋(Downhill Simplex Search)、雜亂搜尋(Random Search)、它布搜尋(Tabu Search)等。這些方法各有優缺點,本計畫的另一重點則在於找出如果選取這些方法的控制參數(Control Parameters)的步驟,以便使用於資料模型化(Data Modeling)之上。

      近年來由於網際網路(Internet)日漸興盛,WWW (World Wide Web)的使用越來越普遍,各種電子資訊的流通與取得也是垂手可得。因此如何從大量的資料中找出有用的因果關係,便成為一個重要的課題。這方面的研究稱為資料探勘(Data Mining)或知識發掘(Knowledge Discovery),一般採用的方法有統計、粗糙集(Rough Sets)機器學習(Machine Learning)中的ID3、非參數式回歸(Nonparametric Regression)中的CART(Classification and Regression Trees)等。本計畫將嘗試以軟式計算用在資料模型化的技巧,用在資料探勘及知識發掘的各種Benchmark Problems。

  80. 語者辨認

    • 英文名稱: Speaker Recognition
    • 計畫編號: NSC 86-2213-E-007-048
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 1996/8/1 to 1997/7/31
    • 關鍵詞: Speaker recognition, pattern recognition, neuro-fuzzy modeling, artificial neural networks, fuzzy logic, digital signal processing
    • 摘要簡介:
      With the advance of modern high-speed computers, now we can try computation intensive approaches that were deemed too inefficient for practical problems. These approaches include adaptive learning systems such as artificial neural networks and adaptive networks, and innovative optimization techniques such as genetic algorithms (GA) and simulated annealing. These approaches, together with fuzzy set theory as a knowledge representation tool, form the constituents of the so-called soft computing that has been used for real-world problems such as character recognition, color recipe prediction and adaptive control.

      This project applies the aforementioned soft computing techniques to a challenging real-world problem: automatic speaker recognition (ASR). Given a speech input, the objective of ASR is to output the identity of the person most likely to have spoken. One application of ASR is to enhance human-machine interface. For instance, voice activated computer should be programmed to adapt and respond to the current user. Security applications of ASR are plenty, for instance, security check when entering a building or accessing a bank account. Moreover, ASR has the convenience of easy data collection over the telephone.

      This project emphasizes on both research and software/hardware implementation. ASR is a difficult problem in pattern recognition. It involves typically a huge amount of data and we need to apply digital signal processing techniques to down-size the data dimension and extract relevant features for further processing of data classification or discriminant analysis. For such a difficult problem, a single approach is usually not enough and we need a collection of various methodologies to complement each other to accomplish the task.

      For research part, we will tackle ASR with both soft-computing techniques and conventional statistical pattern recognition. We have been working on neuro-fuzzy and soft-computing techniques for several years and the applications include time series prediction, data classification, nonlinear system identification, noise cancellation, channel equalization, adaptive control, printed character recognition, and inverse kinematics problems. We shall apply the soft-computing techniques (neural networks, fuzzy logic, adaptive neuro-fuzzy systems, genetic algorithms and simulated annealing) we gained over years to ASR, and complement it with conventional statistical pattern recognition such as Baysian approach.

      For software implementation, our primary tools are MATLAB and C. MATLAB is an integrating environment for scientific computation and data visualization tool. We have positive experiences using MATLAB to deliver GUI-based fuzzy product [], and we expect to have GUI based demo as the product of this project. For computation-intensive and non-vectorizable operation, we will resort to C language for high speed.

      For hardware implementation, our goal is to set up a hardware system using a Pentium PC and dSPACE 1102 controller board to take audio signal from a speaker, do FFT and feature extraction, feed the features to a trained classifier, and return the identity of the speaker on the fly. The whole process is time consuming; it is virtually impossible to do on-line identification without hardware support.

      To sum up, this project is well balanced in terms of research and implementation. We will benefit from the research of using soft computing and statistical approaches for speaker recognition; this paves the avenue to a more difficult problem of speech recognition. The hardware implementation can prove its feasibility and provide a demonstration for further exploration and possible commercialization.