2007年研究計畫概況

張智星

簡表

中文名稱英文名稱主持人補助單位計畫編號補助金額開始日期結束日期

用於音訊音樂的計算聽覺場景分析（1/3） Computational Auditory Scene Analysis for Audio Music 張智星國科會 NSC 96-2628-E-007 -141 -MY3 521000 2007/8/1 2008/7/31

華語文互動語音教學技術研發 Speech-based Dialog Technologies for Learning Mandarin Chinese 張智星資策會 500000 2007/5/1 2007/12/31

中文名稱	英文名稱	主持人	補助單位	計畫編號	補助金額	開始日期	結束日期
用於音訊音樂的計算聽覺場景分析（1/3）	Computational Auditory Scene Analysis for Audio Music	張智星	國科會	NSC 96-2628-E-007 -141 -MY3	521000	2007/8/1	2008/7/31
華語文互動語音教學技術研發	Speech-based Dialog Technologies for Learning Mandarin Chinese	張智星	資策會		500000	2007/5/1	2007/12/31

詳細資料

用於音訊音樂的計算聽覺場景分析（1/3）

英文名稱: Computational Auditory Scene Analysis for Audio Music
計畫編號: NSC 96-2628-E-007 -141 -MY3
主持人: 張智星
補助單位: 國科會
計畫執行期間: 2007/8/1 to 2008/7/31
關鍵詞: Computational Auditory Scene Analysis, Music Information Retrieval, Audio Music Analysis
摘要簡介:
所謂「計算聽覺場景分析」（Computational Auditory Scene Analysis，簡稱CASA）的目標，就是要將單聲道的聲音（可能由多個音源所產生），經由電腦的自動計算，採用各種方法（例如快速傅立葉轉換、動態規劃、機器學習等），並應用我們對音源所具有的各種知識，來抽取出這些音源的聲音，以便進行下一步的處理。自從Bregman 在 1990 年提出Auditory Scene Analysis 的概念後，相關的研究持續不斷，但都注重在一般語音的處理，直到近幾年來，音樂經由網際網路大量傳播，相關的分析與檢索也越來越重要，因此CASA 在音訊音樂（Audio Music）方面的研究和應用也在這幾年開始萌芽。本計畫將整合本實驗室開發多年的音訊處理技術（包含旋律辨識、語音辨識、語音與歌聲合成、強韌式音高追蹤、語音轉換等），經由CASA 的架構來應用於音訊音樂，希望建立有效的分析模式與方法，能夠對音訊音樂進行分析與處理。計畫的主要目標，是希望針對一般流行音樂，做到下列幾點：

對音訊音樂進行主旋律的音高追蹤。
判斷歌聲存在的位置。
由音訊音樂抽取單音歌聲。
多重音高追蹤。
抽取其他單音樂器的聲音（例如鼓聲）。
經由這些分析，我們可以對音訊音樂進行更精密的分類與檢索，相關的應用則有：

音訊音樂的自動分類與檢索
音訊音樂的哼唱檢索
音訊音樂的節拍追蹤
音訊音樂的歌詞同步顯示
音訊音樂的情緒內容分析

華語文互動語音教學技術研發

英文名稱: Speech-based Dialog Technologies for Learning Mandarin Chinese
計畫編號:
主持人: 張智星
補助單位: 資策會
計畫執行期間: 2007/5/1 to 2007/12/31
關鍵詞: 中文語音辨識、電腦輔助發音訓練、電腦輔助口說語音學習
摘要簡介:
本計畫將採用中文語音辨識與語音評分的技術，開發一套電腦輔助口說中文的學習系統，同時在 PC 以及嵌入式系統（PDA、PMP、SmartPhone等手持式裝置）進行系統實現。使用者只要對麥克風講一句中文，此系統即可根據輸入語音資料，抓取音色（語音的內容）、聲調（國語四個聲調的分類）、韻律（每一個音的時間長短）、音量（每一個音的強度）等語音特徵，然後進行和目標語句或是語音模型的比對，根據其相似度來產生一個介於0和100之間的分數。和前一年的計畫比起來，本年所開發的系統更著重於混淆音的偵測，因此必須對學習者的母語進行事前分析，以系統化的方式來找出使用者在學習漢語時，可能產生的混淆音（通常是由母語干擾所發生）），並在實際應用時，能夠準確地偵測混淆音的發生並給予使用者發音改進的建議。此外，我們也要加強對話情境的練習，因此必須對對話教材的準備，多下功夫。