<<國立台灣大學資訊工程學系多媒體資訊檢索研究室


帳號:
密碼:

	最新消息
	實驗室簡介
	招募新血
	得獎紀錄

MIR 實驗室簡介

「多媒體資訊檢索實驗室」的英文全名是 Multimedia Information Retrieval Lab，簡稱「MIR 實驗室」或是「米爾實驗室」，成立於1999年，由張智星老師領導，研究重點放在音樂和音訊方面的檢索和合成，目前也開始影像方面的辨識，並將研究結果實作於微電腦與嵌入式系統。
相關說明及連結如下：

　地點及電話：
張老師辦公室：台大德田館509室（電話：02-3366-4888 轉 509）
MIR實驗室：

德田館 409 室（02-3366-4888 轉 409）

人力來源：約20多人
博士班：資工所、網媒所
碩士班：資工所、網媒所、產業專班
影片欣賞：2008年碩士班
經費來源：以業界計畫為主，請見歷年計畫列表
相關論文：研討會及期刊論文
畢業學生論文
　實驗室網頁：http://mir.cs.nthu.edu.tw
實驗室開發成果：含語音辨識、旋律辨識、語音評分等，請見此下載網頁
實驗室比賽得獎記錄

實驗室精神

　負責主動
　日起有功

此頁是給有興趣參加 MIR 實驗室的新同學。

研究方向

本實驗室的研究方向，主要放在多媒體的檢索與合成方面，特別是在音訊與音樂的處理方面。我們除了在 PC 上建立可用的實際系統外，也將觸角延伸到微電腦與嵌入式系統，開發聰明的玩具與電子寵物。

相關研究，可說明如下：
　在音訊方面的相關研究有：

	口說語言輔助學習：以語音辨識與處理來進行口說語言的電腦輔助學習與評分，可以包含國語、台語、英語的學習，並可使用音量、音高、韻律、MFCC等特性來評斷兩段語音的相似度。
	語音辨識：如何讓電腦辨識每個人說話的內容，根據平台不同，又分成PC、電話、手機、微電腦上的語音辨識
	語音合成：如何將文字轉成自然又悅耳的語音訊號，可見此 MIR TTS 展示系統。
	MP3歌詞與音樂同步化：自動由MP3產生同步變色的歌詞。
	語者辨識（聲紋辨識）：如何讓電腦根據人聲來辨識此人的身份。
	聽音辨位：以兩支麥克風來辨識音源的方位。
	情緒辨識：由一個人講話的語氣來判斷這個人的情緒（也可應用於狗、貓等寵物身上）。
	音調評分：如何以音高及音量來評斷兩段語音在音調方面的相似度

　在音樂相關的研究方向有：

	旋律辨識（哼唱選歌）：如何由一個人的哼唱來辨識所唱的歌，特別是在大量歌曲的情況下（例如超過 5 萬首歌曲），如何有效地提高辨識率與降低計算時間。
	歌聲評分：如何讓電腦根據節拍、音調、咬字、音色、抖音等，來對你的歌聲進行評分。
	音樂情緒辨識：如何從音樂的內容（樂譜及歌詞）來判斷音樂的情緒類別，例如快樂、憂愁、亢奮、勵志等不同情緒類別。
	歌聲校正：如果你唱歌唱的五音不全，如何請電腦自動幫你校正音調，並對音色進行調整，讓你有天籟般的美聲。
	歌聲合成：如何以幾個基本音，合成一首清唱的歌，並加入特殊效果，例如抖音、悲哀的沙啞聲、激動的嘶吼聲等等特殊效果。
	和弦辨識（哼唱譜曲）：如何讓電腦來幫你的清唱配伴奏、和弦，以產生一段悅耳的音樂或多軌鈴聲。
	抓 MP3 主旋律：如何自動從 MP3 的檔案中，抓出人聲的主旋律。
	敲擊辨識（敲擊選歌）：如何由一個人敲擊節拍（或拍手）的方式來辨識所敲擊的歌。
	節拍辨識：由一段音樂來自動抓到此音樂的拍點。

　其他相關研究：

	音高追蹤：如何以最快速的方法進行音高追蹤，並簡化其運算，以便用於微控制器。
	音訊處理：變速不變調（可用於語音學習以練習聽力）、變調不變速（可用於歌聲矯正或是語音轉換）。
	雷射筆光點追蹤：用於互動音樂的指揮系統。
	蛙聲分類：以語者辨識的方法來進行蛙聲自動分類
	鳥聲分類：以語者辨識的方法來進行鳥聲自動分類，並可進一步判斷所傳達之訊息（求偶、焦躁、滿足）。

研究方向

根據上述的研究方向，本實驗室所開發的雛形應用系統包含：

智慧型互動玩具：以16-bit CPU實作的旋律辨識與語音辨識系統，不但是智慧型玩具，也可以達到英語學習的功能，請見下列展示短片：

	蘿蔔戰士（語音及旋律辨識、Wii搖桿控制）
	大嘴鱸魚和唱歌狗（旋律辨識）
	落跑雞（語音辨識）
	唐詩背書企鵝（語音辨識）

	哼唱選歌系統：系統名稱為「超級點歌王」，讓使用者可以使用哼唱方式來選取歌曲，已授權清蔚科技並用於卡拉迷線上卡拉OK軟體。
	自動譜和弦系統：讓使用者可以使用哼唱方式來產生主旋律，並由電腦自動產生最悅耳的和弦，並讓使用者自行選取主旋律樂器和不同風格的伴奏，以產生多軌和弦鈴聲。已授權清蔚科技並用於i-Ring 哼唱鈴軟體。
	多模式網際網路音樂搜尋引擎：系統名稱為「MIRACLE」，可讓使用者使用不同方式來檢索網際網路上的MIDI音樂檔案，可使用的檢索方式包含哼唱、語音、文字等，而比對核心採取平行處理的叢集運算，以降低反應時間。此系統在2001年獲得國家高速電腦中心第一屆軟體設計競賽的第一名。
	全方位盲人新聞、書籍、音樂檢索服務：此系統名稱為「貓頭鷹」，其目的是在降地盲胞門使用電腦的門檻，讓盲胞能以語音/哼唱的方式來選取新聞、書籍或音樂。若選擇書籍，則以串流的方式傳回清大盲友會的有聲書；若選的是新聞，則以語音合成方式來播放新聞內容，若選的是音樂，則播放出相關的 MIDI檔案。此系統在2002年獲得微軟 .NET XML Web Service 的第一名，並代表台灣參加 2003 亞洲區的比賽，得到第二名。（此系統亦會長期使用於清大盲友會，以提供盲胞貼心的服務。）
	背書機：使用語音辨識的技術來協助中小學生們進行「背書」，例如背唐詩三百首等。
	以語音為介面的全文檢索系統：例如，如何以語音檢索六法全書的條文或是唐詩、宋詞。