¦b¤ÀªR¤@¬qµ°T®É¡A§Ú̳q±`±Nµ°T¤Á¦¨¤ñ¸ûµuªº³æ¦ì¡AºÙ¬°µ®Ø¡]frame¡^¡A³q±`¤@Óµ®Ø¥²¶·¥]§t¼ÆÓ°ò¥»¶g´Á¡]fundamental period¡^¡A¤~¯à¥R¤ÀÂ^¨úµ°Tªº¯S¼x¡C±µµÛ§ÚÌ´N¥i¥H±q¤@Óµ®Ø¤º´£¨úÁn¾Ç¯S¼x¡]acoustic features¡^¡A¥H«K¶i¦æ¶i¤@¨Bªº¤ÀªR¡C³q±`§Ṳ́¹³\µ®Ø©Mµ®Ø¤§¶¡¥i¥H«Å|¡A¦Ó¨C¬í¥X²{ªºµ®Ø¼Æ«hºÙ¬°µ®Ø²v¡]frame rate¡^¡Aµ®Ø²v¶V°ª¡A«h©Ò»Ýnªºpºâ¸ê·½¶V¤j¡C¥H¤U¬O±q¤@¬qµ°T¤Á¥X¦hÓµ®Øªº¥Ü·N¹Ï¡G
¹Ï 5.¡G¥Ñ¤@¬qµ°T¤¤¤Á¥Xµ®Ø¡C |
§Ṳ́H¦ÕÅ¥¨ì¤@¬qµ°T«á¡A¥ß§Y¥i¥H·P¨üªºªº¯S©Ê¦³µ¶q¡]volume¡^¡Bµ°ª¡]pitch¡^©Mµ¦â¡]timbre¡^¡A¦ý§ÚÌn¨Ï¥Î¹q¸£¨Ó¤ÀªRµ°T¡A´N¥²¶·¨Ï¥Î¼Æ¾Ç¤½¦¡¨Ó´yz¤W¦C¯S©Ê¡A¥H¡u¹Gªñ¡v¤H¦Õªº·Pı¡C³o¨Ç¥Ñ¨C¤@Óµ®Ø©Ò©â¥X¨Óªº¼ÆȩΦV¶q´NºÙ¬°Án¾Ç¯S¼x¡]acoustic features¡^¡A»¡©ú¦p¤U¡C
- µ¶q¡G¥Nªíµ°Tªº±j«×¡]intensity¡^©Î¯à¶q¡]energy¡^¡A³q±`¥i¥H¨Ï¥Îµ°Tªº¾_´T¨ÓÃþ¤ñ¡A¾_´T¶V¤j¡Aµ¶q¶V¤j¡Aµ¶qªº³æ¦ì¬O¤À¨©¡]decibel¡^¡C
- µ°ª¡G¥Nªíµ°Tªº°ª§C¡A¨Ò¦p¤k¥ÍªººqÁn·|¤ñ¸û°ª¡A¦Ó¨k¥ÍªººqÁn·|¤ñ¸û§C¡C³q±`§Ų́ϥΦb¨C¤@¬í¤º¥X²{ªº°ò¥»¶g´ÁªºÓ¼Æ¡A¨Ó¥Nªíµ°ª¡CÁ|¨Ò¨Ó»¡¡A§ÚÌ¥i¥H¥ý¥Î¦×²´Æ[¹îµ¤eªºªi§Î¡A§ì¥X°ò¥»¶g´Áªº¦ì¸m¡AµM«á¨M©wµ°ª¡A¤èªk¦p¤U¹Ï¥Ü¡G
¹Ï 5.¡G¥ÑÆ[¹îªk±o¨ìµ¤eÁnµªº¤@Óµ®Øªºµ°ª¡C |
¦b¤W¹Ï¤¤¡A§ÚÌ©Ò³B²zªºÁnµ¤º®e¬Oµ¤eªº¿ýµ¡A¨ú¼ËÀW²v¬O 16 KHz¡]¤]´N¬O¨C¬íªºÁnµ¨ú¼ËÂI¬O 16000¡^¡C§ÚÌ¥ý¤Á¥X¤@Óµ®Ø¡Aªø«×¬O 256 ÂI¡]®É¶¡ªø«×¬O 512/16000 = 0.032 sec = 32 msec¡^¡AµM«á¨Ï¥ÎÆ[¹îªk¡A¦b³oÓµ®Ø¤º¬D¨ì 6 Ó§¹¾ãªº°ò¥»¶g´Á¡A¶}©l©ó²Ä 7 ÂI¡Aµ²§ô©ó²Ä 226 ÂI¡A¦]¦¹°ò¥»¶g´Áªº®É¶¡ªø«×¬O (226-7)/6 = 36.5 points¡A¦Ó¹ïÀ³ªº°ò¥»ÀW²v«h¬O 16000/36.5 = 438.36 Hz¡A¥Nªí¨C¬íÄÁ¤j¬ù¦³±Nªñ 438 Ó°ò¥»¶g´Á¡C
§Q¥ÎÃþ¦üªº¤è¦¡¡A§Ṳ́]¥i¥H¨M©w¤@Ó¤HÁ¿¸Üªºµ°ª¡A¦p¤U¡G
¹Ï 5.¡G¥ÑÆ[¹îªk±o¨ì¤@¥y»yµªº¤@Óµ®Øªºµ°ª¡C |
¦b¤W¹Ï¤¤¡A§ÚÌ©Ò³B²zªºÁnµ¤º®e¬O¡u²MµØ¤j¾Ç¸ê°T¨t¡v¡A¨ú¼ËÀW²v¬O 16 KHz¡]¤]´N¬O¨C¬íªºÁnµ¨ú¼ËÂI¬O 16000¡^¡C§ÚÌ¥ý¤Á¥X¤@Óµ®Ø¡Aªø«×¬O 512 ÂI¡]®É¶¡ªø«×¬O 512/16000 = 0.032 sec = 32 msec¡^¡AµM«á¨Ï¥ÎÆ[¹îªk¡A¦b³oÓµ®Ø¤º¬D¨ì 3 Ó§¹¾ãªº°ò¥»¶g´Á¡A¶}©l©ó²Ä 75 ÂI¡Aµ²§ô©ó²Ä 477 ÂI¡A¦]¦¹°ò¥»¶g´Áªº®É¶¡ªø«×¬O (477-75)/3 = 134 points¡A¦Ó¹ïÀ³ªº°ò¥»ÀW²v«h¬O 16000/134 = 119.40 Hz¡A¥Nªí¨C¬íÄÁ¤j¬ù¦³±Nªñ 119 Ó°ò¥»¶g´Á¡C
¥Ñ©ó§Ṳ́H¦Õ¹ï©óÁnµ°ª§Cªº·Pı¡A¨Ã¤£¬Oª½±µ©MÁnµªº°ò¥»ÀW²v¦¨¥¿¤ñ¡A¦Ó¬O©MÁnµªº°ò¥»ÀW«ßªº¹ï¼ÆȦ¨¥¿¤ñ¡A¦]¦¹§ÚÌ¥i¥H¨Ï¥Î¥bµ®t¡]semitone¡^¨Óªí¥Üµ°ª¡A¤½¦¡¦p¤U¡G
$$
pitch = 69 + 12 \log_2 \left(\frac{freq}{440} \right)
$$
¨ä¤¤ $freq$ ¬O¥H Hz ¬°³æ¦ìªº°ò¥»ÀW²vÈ¡A¦Ó $pitch$ «h¬O¥H semitone ¬°³æ¦ìªºµ°ªÈ¡A³oÓµ°ªÈ¤SºÙ¬° MIDI number¡A¥i¥Hª½±µ¹ïÀ³¨ì¿ûµ^ªº¨C¤@Óµ^Áä¡A¨Ò¦p·í $freq=440$ ®É¡A©Ò¹ïÀ³¨ìªºµ°ª¬O $pitch=69$¡A³o´N¬O¿ûµ^ªº¤¤¥¡ La¡]©ÎºÙ middle A¡BA440¡BA4¡^Áä¡C
- µ¦â¡G¥Nªíµ°Tªº¤º®e¡A¨Ò¦p¡u£«¡v©M¡u£¬¡vªºµoµ¤è¦¡¤£¦P¡A´N·|²£¥Í¤£¦Pªºµ¦â¡A¥t¥~¤£¦P¼Ö¾¹©Ò²£¥ÍªºÁnµ¡A¤]¬OÄݩ󤣦Pªºµ¦â¡C³q±`§Ų́ϥε°T¦b¤£¦PÀW²vªº¯à¶q¤À¥¬¡A¨Ó¥Nªíµ¦â¡A¦]¦¹¸g¥Ñ§Ö³t³Å¥ß¸Âà´«¡]fast Fourier transform, FFT¡^¨Ó±N¤@Óµ®Øªº°T¸¹Âন´T«×ÀWÃС]magnitude spectrum¡^¡A´N¥i¥H°µ¬°µ¦âªº¯S¼x¡C¦ý¥H´T«×ÀWÃЪº¯S¼x¡A±`¨ü¨ìµ°ªªº¼vÅT¡A¦Ó¦³¨óªi¡]harmonics¡^ªº²{¶H¡A¦]¦¹¥t¤@Ө嫬ªºµ¦â¯S¼x¬O MFCC (mel-frequency cepstral coefficients) ¡A¤ñ¸û¤£·|¨ü¨ì¨óªiªº¼vÅT¡A¥i¥H¥Nªí¤H¦Õ¹ïµ¦âªº·P¨ü¡A¦¹¯S¼x±`¥Î¦b»yµ¿ëÃÑ¡C
¤WzªºÁn¾Ç¯S¼x¡Aªí²{¦b®É°ìªºªi§Î¤è±¡A¥i¥HÅã¥Ü¦p¤U¡G
¹Ï 5.¡GÁn¾Ç¯S¼xÅã¥Ü©ó®É°ìªº¹ïÀ³ªí²{¡C |
Y¬O¨Ï¥Î FFT±N¤@Óµ®Øªº°T¸¹Âন´T«×ÀWÃСA¤WzªºÁn¾Ç¯S¼x¥i¥HÅã¥Ü¦p¤U¡G
¹Ï 5.¡GÁn¾Ç¯S¼xÅã¥Ü©óÀW°ìªº¹ïÀ³ªí²{¡C |
§â¤@¬qµ°T¤Á¦¨µ®Øªº¶°¦X«á¡A§ÚÌ´N¥i¥H°w¹ï¨CÓµ®Ø¨Ó©â¨úÁn¾Ç¯S¼x¡]¥i¯à¬O¤@Ó¼ÆÈ¡A¨Ò¦pµ¶q©Î¬Oµ°ª¡A©Î¬O¤@Ó¦V¶q¡A¨Ò¦pÀWÃЩάO MFCC¡^¡A¤£¦PªºÀ³¥Î·|»Ýn¥Î¨ì¤£¦PªºÁn¾Ç¯S¼x¡A¹q¸£¥²¶·¯à°÷¦Û°Ê¦apºâ³o¨Ç¯S¼x¡A¤~¯à¶i¤@¨B¶i¦æ«áÄòªº¤ÀªR©Î¤ÀÃþ¡C¥H¤U¦U¤p¸`±N»¡©úµ°T¿ëÃѪº¦U¶µÀ³¥Î¡A¥H¤Î¥i¯à¥Î¨ìªºÁn¾Ç¯S¼x¤Î¬ÛÃöªº¾÷¾¹¾Ç²ß¤èªk¡C
§@·~
- ¤@¬qµ°Tªº¨ú¼ËÀW²v¬O 16 kHz¡AY¬Oµ®Øªø«×¬O 320 Ó¨ú¼ËÂI¡A½Ð¦^µª¤U¦C°ÝÃD¡G
- ¦pªGµ®Ø¤§¶¡ªº«Å|¬O 120 ÂI¡A¨º»ò¹ïÀ³ªºµ®Ø²v¬O¡H
- ¦pªGµ®Ø²v¬O 100 frame/sec¡A«hµ®Ø¤§¶¡ªº«Å|À³¸Ó¬O´XÂI¡H
- °²³]§Ú±q§Úªº»yµ°T¸¹©â¥X¤@Óµ®Ø¡A¦p¤U¹Ï¡C¦pªG¨ú¼ËÀW²v¬O 8 kHz¡A½Ðpºâ³oÓµ®Øªº°ò¥»ÀW²v¡C¡]¦b¿ï¨ú°ò¥»¶g´Á¨Ó¶i¦æ¥§¡®É¡A°ò¥»¶g´ÁªºÓ¼Æ¥²¶·¶V¦h¶V¦n¡A¥H¨Déw¡C¡^
¹Ï 5.¡G½Ð¥Ñ¦¹µ®Øpºâ¹ïÀ³ªº°ò¥»ÀW²v¡C |
- ½Ð±qºô¸ô¤W´M§ä¸ê°T¡A¨Ó¸ÑÄÀ¤U¦C¦Wµü¡]½ÐºÉ¶q¨Ï¥Î¼Æ¾Ç¤èµ{¦¡¨Ó»¡©ú¡^¡A¨Ã»¡©ú¦b¤é±`¥Í¬¡¤¤¡A¦ó®É·|¹J¨ì³o¨Ç²{¶H¡G
- ©çÀW¡]beat frequency¡^
- §ù´¶°Ç®ÄÀ³¡]Doppler effect¡^
Audio Signal Processing and Recognition (µ°T³B²z»P¿ëÃÑ)