MIR 實驗室簡介

張智星


MIR 實驗室簡介

第二屆亞洲區 XML Web Services 學生程式競賽 2003 年在北京舉行,MIR 實驗室獲得亞洲區總冠軍賽第二名成績,在北京會場接受微軟總裁比爾蓋茲頒獎。
多媒體資訊檢索實驗室」的英文全名是 Multimedia Information Retrieval Lab,簡稱「MIR Lab」或是「米爾實驗室」,由張智星老師領導,簡介如下:
  • 研究重點:
    • 音樂相關:複音音樂的人聲抽取、口水歌偵測、哼唱選歌、原曲辨識、曲風分類、情緒分類、節拍追蹤等。
    • 語音相關:電腦輔助發音學習、語音辨識、語音合成等。
    • 影像相關:人臉分析、圖像分類、製造自動化應用等。
    • 視訊相關:物件追蹤、多模式分類與辨識等。
  • 研發成果:
  • 人力來源:約20多人
  • 實驗室精神:負責主動、日起有功!(有興趣加入本實驗室之同學,請先閱讀此說明
  • 經費來源:學界及業界計畫約各佔50%,請見計畫列表
  • 聯絡方式:
    • 張智星:台大資工系509室(0953-154-045)
    • MIR實驗室:台大德田館409室(02-33664888 ext 409)

研究方向

本實驗室的研究方向,主要放在多媒體的檢索與分析方面,可說明如下:
  • 音樂相關之研究:
    • 哼唱選歌(query by singing/humming):如何由一個人的哼唱來辨識所唱的歌,特別是在大量歌曲的情況下(例如超過 5 萬首歌曲),如何以各種演算法及各種平台(如GPU)來有效地提高辨識率與降低計算時間。目前的展示系統在使用者哼唱八秒後,便能夠即時從2萬首歌中選取最接近的歌曲,系統後端採用單一PC進行運算,並用GPU進行加速,對2萬首歌的搜尋只需要 3 秒。本系統曾獲得2011年台灣區 CUDA 程式設計大賽冠軍。 [系統展示]
    • 音訊指紋比對(audio fingerprinting):又稱為原曲選歌,亦即如何以被雜訊污染後的原曲音樂聲來辨識此首歌曲。目前的展示系統可接收八秒音樂後,便能即時從20萬首歌中選取最接近的歌曲,系統後端採用單一PC進行運算,並用GPU進行加速,對20萬首歌的搜尋只需要 0.3 秒。本系統曾獲得2012年台灣區 CUDA 程式設計大賽佳作。 [系統展示]
    • 音樂節拍辨識(beat tracking):由一段音樂來自動抓到此音樂的拍點。 [系統展示]
    • 音樂曲風分類(music genre classification):如何辨識一段音訊音樂(audio music)的曲風(例如交響樂、鄉村樂、重金屬、饒舌、搖滾、迪斯可等)。在 2011-2014 四年的 MIREX 國際音樂評比的曲風辨識項目,我們均獲得冠軍。 [系統展示]
    • 音樂情緒辨識(music mood classification):如何辨識一段音訊音樂所要表達的情緒,例如快樂、憂愁、亢奮、勵志等不同情緒類別。我們曾經獲得數次MIREX 國際音樂評比的情緒辨識比賽的冠軍。
    • 音訊音樂的主旋律抽取(audio melody extraction):如何自動從複音音訊音樂(polyphonic audio music)中,自動抓出人聲的主旋律。這是一個相當困難的研究主題,若能具有高準確度,則可以用在哼唱選歌的資料庫建置、歌聲評分、口水歌偵測等重要應用。
    • 歌聲評分:如何讓電腦根據節拍、音調、咬字、音色、抖音等,來對你的歌聲進行評分,如同日本的「關八比賽」一般。
    • 口水歌偵測(cover song identification):如何以音訊音樂的內容來判斷兩首歌是否是屬於同一個版本。口水歌的範例:傳統的「望春風」以及陶?搖滾版的「望春風」,或是張惠妹和孫燕姿的「原來你什麼都不要」。
    • 敲擊選歌:如何由一個人敲擊節拍(或拍手)的方式來辨識所敲擊的歌。
    • MART (Music Assisted Running Trainer): 以智慧型手機的感測器(如三軸加速器及陀螺儀等)來預測跑步者的腳步踩地點,並即時修改音樂,讓音樂節拍能夠隨時配合踩地點來播放,跑步者可以隨自己的配速來跑步,但由於有同步音樂可以聆聽,讓跑步健身感覺更輕鬆。(我們必須對所有音樂事先進行節拍追蹤,這也是我們實驗室的研究強項。)
    • 音訊浮水印(audio watermarking):在音樂的高頻部分加入隱藏的資訊(例如短網址),讓使用者到賣場後,即可經由手機應用程式而知道各項產品最新優惠,也可以進行展場導覽等 location-based service,或是現場音樂演奏會的自動對譜。目前在十秒錄音可以達到的短網址(六個字元)辨識率可達95%以上。
    • 遊戲應用:音樂敲擊遊戲打鼓練習遊戲
  • 音訊相關之研究:
    • 口說語言輔助學習:以語音辨識與處理來進行口說語言的電腦輔助學習與評分,可以包含國語、台語、英語、日語的學習,並可使用音量、音高、韻律、MFCC等特性來評斷兩段語音的相似度。
    • 英語重音辨識:自動判斷一個英文單字發音的重音位置,可用於發音矯正等應用。 [系統展示]
    • 語音命令辨識:如何讓電腦辨識語音命令,根據平台不同,又分成 PC 及嵌入式系統的語音辨識
    • 語音合成:如何將文字轉成自然又悅耳的語音訊號,可見此 MIR TTS 展示系統
    • 語者辨識(聲紋辨識):如何讓電腦根據人聲來辨識此人的身份。
    • 語音情緒辨識:由一個人講話的語氣來判斷這個人的情緒(也可應用於狗、貓等寵物身上)。
    • 遊戲應用:英語發音練習遊戲
  • 影像相關之研究:
    • Wafer faliure map recognition: 使用機器學習的方法,來辨識台積電所生產的晶圓的錯誤型態(例如:edge, ring, line scratch, center, local, donut, sector, random, etc),台積電就可以根據此錯誤型態來預測可能的製程或機台故障,進而提早修正,提高產能。此系統是本實驗室與台積電的三年產學合作計畫產出,目前已經被台積電內部廠房上線使用,每年可以節省人力支出達上百萬美金。
    • Depth from SEM images: 根據台積電所提供的 SEM (Scanning Electron Microscope) 影像(每組共有三張,分別是由左上方、正上方、右下方),來判斷電路表面的深度,後續台積電將以此結果來和原始電路設計圖進行比較,以便能夠自動抓出可能發生的電路製造錯誤,如短路或斷線等。目前我們採用的方法是 DNN (Deep-learning Neural Networks),並經由 GPU 來加速,所得到的效果已經超越台積電的預期,也極有可能在台積電內部廠房上線使用。

10,682 page hits since 2002/04/25