2017年研究計畫概況

張智星


簡表

中文名稱 英文名稱 主持人 補助單位 計畫編號 補助金額 開始日期 結束日期
S3: 全方位音樂娛樂學習平台  S3: A Universal Music Platform  張智星  科技部    15000000  2017/12/1  2018/11/30 
應用深度學習方法之語者驗證技術  Speaker Verification Using Deep Learning  張智星  中華電信    990000  2017/10/20  2018/10/19 
植物影像辨識  Plant Image Recognition  張智星  工研院    990000  2017/9/1  2018/8/31 
系統性自動化貼標  Systematic Automatic Labeling  張智星  玉山銀行    630000  2017/5/1  2017/10/31 

詳細資料

  1. S3: 全方位音樂娛樂學習平台

    • 英文名稱: S3: A Universal Music Platform
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 科技部
    • 計畫執行期間: 2017/12/1 to 2018/11/30
    • 關鍵詞:
    • 摘要簡介:
      本計畫希望透過本實驗室在音樂分析與檢索二十年來深耕的技術能量,創造出全方位音樂娛樂學習平台所需之相關技術與基礎設施,為台灣經濟開闢以全球市場為訴求的活水源頭。全球的音樂市場產值龐大,在卡啦OK方面,Smule Sing在全球的下載量已經超過一億,專用於卡啦OK的無線藍芽麥克風在歐美也有1.32億美元的市場估值;在音樂教育上全球亦有45億美元的市場。在本計畫中,我們將以AI及機器學習為基底,開發相關產品所需的各項關鍵技術,包含主動噪音消除(可用於伺服器端和客戶端的裝置)、單聲道音源分離(可用於音訊音樂及語音)、人臉表情辨識、歌聲與伴奏同步、音高改變及人聲消除的硬體實現、歌聲美化等,這些關鍵技術可以使用於B2B的商業模式(這是評審委員強調的重點),可以用於各項商業服務與應用,例如視訊重製系統(能夠抽出使用者的語音來進行進一步的處理)、線上卡拉OK(可以支援歌唱評分、可以使用Youtube的音樂)、麥克風式卡拉OK(能夠對人生及音樂升降key、使用Youtube音樂)、音樂韻律遊戲(遊戲譜可以自動產生、可以使用 Youtube 的音樂)、電腦輔助音樂學習工具(具有自動譜、自動翻頁、自動評分等功能)、音樂檢索系統(使用哼唱、語音或原生音樂片段等)、語音增強(例如用於車輛內部的語音辨識)等。此外,我們也會花少部分資源於B2C的商業模式,利用精準歌聲評分與同步即時噪聲消除,開發手機卡啦OK軟體KaraSing,讓使用者有嶄新的體驗,實現病毒式行銷,並透過最新的遊戲內容自動生成與敲擊辨識的功能,實作一款新的音樂遊戲AutoRhythm,使用者能夠使用Youtube的音樂進行敲擊遊戲,經由對音樂的熟悉性達到對遊戲的黏著度。此外,我們可使用分軌錄製的音樂來開發音樂學習軟體,包含自動評分及樂譜對位等功能,達到寓教於樂的目標。硬體方面,我們將實現人聲去除等功能,以晶片實作在無線麥克風卡拉OK上,拉高與相似產品的差異。透過價創計畫支援,加上我們的技術、創業經驗、與版權業者的良好關係,相信我們能夠產出一家整合性的平台公司,為經濟做出具體貢獻。

  2. 應用深度學習方法之語者驗證技術

    • 英文名稱: Speaker Verification Using Deep Learning
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 中華電信
    • 計畫執行期間: 2017/10/20 to 2018/10/19
    • 關鍵詞:
    • 摘要簡介:
      本計畫目的為研發一種語者驗證的演算法,以深度學習技術精進其準確率,並開發出一個應用此演算法之雛型系統。語者辨認 (Speaker Recognition) 主要根據使用者聲音的特徵,辨別使用者的身分。在不同的應用層面上,分為語者辨別 (Speaker identification) 與語者驗證 (Speaker verification) 兩大類。當中的語者驗證技術的特點為防偽性、便利性及準確性。在防偽性方面,可透過隨機指定使用者需講出之字串,防止他人側錄竊取,提高語者驗證之安全機密性;在便利性方面,相較於傳統電話中比對客戶個人資料的驗證方式,語者驗證技術能降低客戶等待時間。而在準確性方面,由於深度學習技術的演進,語者驗證之準確度已大幅提升至線上服務可接受之範圍。因此,本計畫目的為研發一種語者驗證的演算法,將使用深度學習 (如: 深度神經網路 (Deep Neural Network,DNN)、遞歸神經網路(Recurrent Neural Network,RNN)、卷積神經網路(Convolution Neural Network,CNN) 等) 與機械學習等相關技術,開發出一個應用此演算法之雛型系統,預期此系統的語者驗證效能在合適的環境下能夠達到特異性(specificity)99.9%,而敏感性(sensitivity)能到達95%,進而能夠上線服務廣大的中華電信客戶。

  3. 植物影像辨識

    • 英文名稱: Plant Image Recognition
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 工研院
    • 計畫執行期間: 2017/9/1 to 2018/8/31
    • 關鍵詞: Image recognition, CNN, DNN
    • 摘要簡介:
      本計畫目標研發出一套基於花與葉片之植物辨識系統,針對大自然中的植物,利用照相手機所拍攝的花朵影像及葉片影像進行辨識。主要目的在於協助生態保育專家更有效率查看植物品種以及定時查看與踏查各地的物種以瞭解生態平衡性,因此動、植物的品種辨識對此領域專家來說相當重要。本方法的流程圖如圖1.所示。首先我們會先定義植物物種,進行各物種的圖片搜集並建立資料庫,並在蒐集到的圖片上標記物種的特徵。接下來會同時進行傳統機械學習方法以及深度學習方法的研發。在傳統機械學習方法上,會先使用已存在的特徵抽取方法抽取物種上的重要特徵,再放到分類器做訓練。在深度學習的方法上,會使用卷積神經網路 (Convolutional Neural Network, CNN) 做特徵抽取及訓練,並同時比較兩種方法的結果和改進。

  4. 系統性自動化貼標

    • 英文名稱: Systematic Automatic Labeling
    • 計畫編號:
    • 主持人: 張智星
    • 補助單位: 玉山銀行
    • 計畫執行期間: 2017/5/1 to 2017/10/31
    • 關鍵詞:
    • 摘要簡介:
      本計畫將針對顧客行為、網頁、購買物品、PTT等資料進行分析,特別是使用機器學習來進行自動化貼標,以便進行針對顧客偏好的精準行銷。