2012年研究計畫概況

張智星


簡表

中文名稱 英文名稱 主持人 補助單位 計畫編號 補助金額 開始日期 結束日期
口說台語評分系統之研究與實作    張智星  國科會    523000  2012/8/1  2013/7/31 
彩妝轉移的實作與探討    張智星  國科會、創意蘿蔔    900000  2012/6/1  2013/5/31 
音樂進階特徵抽取與人機互動技術  Technologies for Advanced Music Feature Extraction and Human–Computer Interaction  張智星  中華電信研究所    980000  2012/1/1  2012/12/31 
透過語音與關鍵字組的電視節目自動資料萃取方法    張智星  資策會    600000  2012/1/1  2012/12/15 

詳細資料

  1. 口說台語評分系統之研究與實作

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會
    • 計畫執行期間: 2012/8/1 to 2013/7/31
    • 關鍵詞:
    • 摘要簡介:
      本計畫的研發目標,是要完成一個完整的台語CAPT(電腦輔助發音訓練,computer assisted pronunciation training)系統,所使用的評分參數包含音色、音調/音高、音量/能量、音長/韻律等,同時我們也將探討相關的研究議題,例如如何自動進行混淆音的偵測、如何結合強制對位(forced alignment)及自由音節解碼(free syllable decoding)來得到穩定的評分分數、如何進行台語聲調辨識,以及如何調整這些評分參數的權重,以便能夠逼近老師所給的實際分數等等。此系統必須能夠計算每一個詞彙及每一個音素的分數,並顯示相關的混淆音,同時給予發音改進的建議,讓使用者能夠反覆練習,加強自己口說台語的正確發音。「電腦輔助發音訓練與評分」是語音辨識的一個新興研究與應用領域,相關的文獻與報告日漸豐富,軟體應用也越來越多,但仍未見與台語相關的應用。我們在先前的產業合作計畫中,已經陸續完成了「華語語音評分」、「英語語音評分」、「日語語音評分」等系統,而且也進行相關的技術轉移及商品化,研發及產業合作的經驗相當豐富。在此計畫中,我們希望結合並引用其他子計畫主持人在台語語言處理的多年研究成果,實際產出一個接近市場需求的「電腦輔助台語發音評分系統」,因此此計畫的使命除了在於能夠以語音科技來促進數位學習產業升級外,更具有本土文化推廣的深一層意義。

  2. 彩妝轉移的實作與探討

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 國科會、創意蘿蔔
    • 計畫執行期間: 2012/6/1 to 2013/5/31
    • 關鍵詞:
    • 摘要簡介:
      本報告內容簡述此計畫對於自動彩妝的應用,目前的發展進度與成果。本計畫聚焦在應用於智慧型平台上的自動眼線追蹤,因為眼線是重要的人臉特徵,在化妝時若有畫上眼線往往會有畫龍點睛的效果,所以本計畫將優先探討眼線追蹤技術。在研究方法上則分為二個部分,一是人臉偵測與眼睛偵測,另一則是眼線追蹤。在資料收集上,我們的資料庫收集了179張臉部照片,並人工標記眼線位置。實驗結果顯示,眼線追蹤的成功率超過90%。最後我們也成功開發了一個可以用於Android平台的APP,證實了自動眼線追蹤應用在智慧型平台的可行性。

  3. 音樂進階特徵抽取與人機互動技術

    • 英文名稱: Technologies for Advanced Music Feature Extraction and Human–Computer Interaction
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 中華電信研究所
    • 計畫執行期間: 2012/1/1 to 2012/12/31
    • 關鍵詞: 哼唱選歌、歌聲評分、曲風分類、節拍追蹤、音訊音樂的音高追蹤
    • 摘要簡介:
      本計劃旨在整合音樂進階特徵的抽取,並與歌唱辨識技術與歌唱評分技術做結合,實現基於此所產生的人機互動系統。在歌唱辨識系統方面,首先必須進行進階音樂特徵的抽取以建立音樂資料庫, 對於欲建立資料庫的MP3/MIDI音樂檔,採用「偵測歌聲片段」技術標註歌曲中有人聲的片段,進以使用「歌唱主旋律抽取技術」來切割混雜著音樂與人聲的片段,並將其中的人聲旋律抽取出來,以提供後續的歌唱辨識系統使用;在前端部份,對於輸入的人聲音檔,採用「強健性歌唱辨識比對技術」,此技術可將輸入的人聲音檔與音樂資料庫做比對,並回傳比對結果做進一步的應用。對於「歌唱評分技術」而言,將使用前述相關音樂進階特徵技術,達成抽取音樂MV之主旋律的目的,並對使用者所輸入之歌唱訊號進行評分的工作,增加人機互動的發展。

  4. 透過語音與關鍵字組的電視節目自動資料萃取方法

    • 英文名稱:
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 資策會
    • 計畫執行期間: 2012/1/1 to 2012/12/15
    • 關鍵詞:
    • 摘要簡介:
      所謂語音文件檢索,是能接受使用者的語音查詢,來對資料庫中的文件進行檢索。於語音辨識的部分,常用的方法有關鍵詞萃取,以及自由音節解碼等等。而在檢索部分,對於資料庫是文字或語音的型態,也有不同的方法:若是文字型態,則透過斷詞的方式,將經常出現的詞彙定義為關鍵字;而若是語音型態,則要先轉換為文字,以加速使用時的速度。關於關鍵詞萃取,首先是辨識語句當中,是否存在特定的關鍵字;若有,則將語句中包含關鍵詞的部分萃取出來。一般會在特定任務(Task)下,對任務選取若干個關鍵詞,在辨識時只要將關鍵詞萃取出來,而不管其它部分。因應任務的不同,關鍵詞的定義也就不同,而所搭配的無關詞模型也很可能就不同。一個好的關鍵詞萃取系統必須達到人性化的要求,讓使用者任意地運用在某些任務中,說出使用者想要講的語句,不能加以限制。關鍵詞萃取系統中的辨識網路基本上是由關鍵詞網路和無關詞網路兩大部分所組合而成,我們可以依據情境的需求,事先定義好關鍵詞彙,並與無關詞的部分做恰當的組合。而在辨識時,通常可採用連續語音辨識技術來進行聲學層次的辨識。最常採用的技術是維特比搜尋法,能夠同時對語音信號作音節的切割與辨識,相當適合應用在即時系統。