¥»¤p¸`±N¥H¯x°}¹Bºâªº¤è¦¡¨Ó±À¾É³Ì¤p¥¤èªk¡C¥Ñ©ó¯x°}¹Bºâªºªí¥Üªk¬Û·í²¼ä¡A¦]¦¹©Ò±À¾É¥X¨Óªº³Ì¤p¥¤èªk¤]¬Û·íª½Ä±©öÀ´¡C
¦b¶i¤J¥¿ÃD¤§«e¡A§ÚÌ¥ý©w¸q´XÓ±`¥Îªº¼Æ¾Ç¹Bºâ¡A¨Ã¨Ï¥Î¯x°}¨Óªí¥Ü³o¨Ç¹Bºâ¦¡¡C
¯x°}ªºÂà¸m¡]Transpose¡^º¡¨¬¤U¦C«íµ¥¦¡¡G $$ (AB)^T=B^TA^T $$
¯x°}ªº¤Ï¯x°}¡]Inverse¡^¹Bºâº¡¨¬¤U¦C«íµ¥¦¡¡G $$ (AB)^{¢w1}=B^{-1}A^{-1} $$
¤@ӯ¶q¨ç¼Æ $f(\mathbf{x})$ ªº±è«×¡]Gradient¡^µ¥©ó¦¹¨ç¼Æ¹ï¨C¤@ÓÅܼư¾·L¤À«á©Ò§Î¦¨ªº¦V¶q¡G $$ \nabla f(\mathbf{x}) = \left[ \begin{matrix} \partial f(\mathbf{x})/\partial x_1 \\ \vdots \\ \partial f(\mathbf{x})/\partial x_n \\ \end{matrix} \right], ¨ä¤¤ \mathbf{x}=\left[\begin{matrix} x_1\\ \vdots \\ x_n \\ \end{matrix}\right] $$
¦V¶qÅÜ¼Æ $\mathbf{x}$ ªº¤G¦¸¦¡¡]Quodratic Form¡^¥i¥Hªí¥Ü¦p¤U¡G $$ \mathbf{x}^TA\mathbf{x} = \sum_{i=1}^n a_{ii}x_i^2 + \sum_{i=1}^n \sum_{j=1, j \neq i}^n a_{ij} x_i x_j, $$ ¨ä¤¤§ÚÌ¥i¥H°²³] $A$ ¬O¤@Ó¹ïºÙ¯x°}¡A¦]¬°¦pªG $A$ ¤£¹ïºÙ¡A§ÚÌ¥i¥H¨Ï¥Î $(A+A^T)/2$ ¨Ó¨ú¥N¤§¦Ó¤£·|§ïÅÜì¨Óªº¤G¦¸¦¡¡G $$ \mathbf{x}^TA\mathbf{x} = \mathbf{x}^T \left(\frac{A+A^T}{2} \right)\mathbf{x} $$
¤G¦¸¦¡ $\mathbf{x}^TA\mathbf{x}$ ªº±è«×¥i¥Hªí¥Ü¦p¤U¡G $$ \nabla (\mathbf{x}^TA\mathbf{x}) = \left(\frac{A+A^T}{2}\right) \mathbf{x} $$
ºî¦X«e±ªº¼Æ¾Ç©w¸q¡A§ÚÌ¥i¥H±o¨ì¤U¦C´XÓ«íµ¥¦¡¡]°²³]©Ò¦³±è«×§¡¬O¹ï $\mathbf{x}$ ¨Ó¶i¦æ¡A¨Ã°²³] $A$ ¬°¹ïºÙ¯x°}¡^¡G
¦³¤F«e±³o¨Ç«íµ¥¦¡«á¡A§ÚÌ´N¥i¥H±N¨ä¥Î¦b³Ì¤p¥¤èªkªº±À¾É¡C°²³]§ÚÌn¸Ñªº°ÝÃD¬O $$ A\mathbf{\theta}=\mathbf{y} $$ ¨ä¤¤ $A$ ¬O¤@Ó $m \times n$ ªº¤wª¾¯x°}¡A$\mathbf{y}$ ¬O¤@Ó $m \times 1$ ªº¤wª¾¦V¶q¡A¦Ó $\mathbf{\theta}$ «h¬O¤@Ó $n \times 1$ ªº¥¼ª¾¦V¶q¡C§Ṵ́²³] $m>n$¡A¦b¦¹±¡ªp¤U¡A¤èµ{¦¡Ó¼Æ¤j©ó¥¼ª¾¼ÆÓ¼Æ¡A¦]¦¹¤W¦¡µLºë½T¸Ñ¡A±ý¨Ï¤W¦¡¦¨¥ß¡A¶·¥[¤W¤@»~®t¦V¶q $\mathbf{e}$¡G $$ A\mathbf{\theta}=\mathbf{y}+\mathbf{e} $$ ¥¤è»~®t«h¥i¼g¦¨ $$ E(\mathbf{\theta})=\|\mathbf{e}\|^2=\mathbf{e}^T\mathbf{e}= (A\mathbf{\theta}-\mathbf{y})^T(A\mathbf{\theta}-\mathbf{y}) $$
- $\nabla(\mathbf{x}^T\mathbf{y})=\nabla(\mathbf{y}^T\mathbf{x})=\mathbf{y}$
- $\nabla(\mathbf{x}^T\mathbf{x})=2\mathbf{x}$
- $\nabla(\mathbf{x}^TA\mathbf{y})=A\mathbf{y}$
- $\nabla(\mathbf{y}^TA\mathbf{x})=A^T\mathbf{y}$
- $\nabla \mathbf{x}^TA\mathbf{x} = 2A\mathbf{x}$
- $\nabla (\mathbf{x}^TA\mathbf{x}+\mathbf{b}^T\mathbf{x}+\mathbf{c}) = 2A\mathbf{x}+\mathbf{b}$
¥Ñ©óºë½T¸Ñ¨Ã¤£¦s¦b¡A¦]¦¹§Ṵ́h¦Ó¨D¨ä¦¸¡A§ï¬°´M¨D¯à¨Ï¥¤è»~®t $E(\mathbf{\theta})$ ¬°³Ì¤pªº $\mathbf{\theta}$ È¡C¥Ñ©ó $E(\mathbf{\theta})$ ¬O $\mathbf{\theta}$ ªº¤G¦¸¤èµ{¦¡¡A¦]¦¹§ÚÌ¥i¥Hª½±µ¹ï $E(\mathbf{\theta})$ ¶i¦æ°¾·L¤À¡A¨Ã¥O¨äµ¥©ó¹s¡A§Y¥i±o¨ì¤@²Õ $n$ ¤¸¤@¦¸ªº½u©ÊÁp¥ß¤èµ{¦¡¨Ó¸Ñ¥X³Ì¨Îªº $\mathbf{\theta}$ È¡C´«¥y¸Ü»¡¡A§ÚÌ¥i¥H¥ýpºâ $E(\mathbf{\theta})$ ªº±è«×¡G $$ \begin{array}{rcl} \nabla E(\mathbf{\theta}) & = & \nabla ( (A\mathbf{\theta}-\mathbf{y})^T(A\mathbf{\theta}-\mathbf{y}) )\\ & = & \nabla ( (\mathbf{\theta}^TA^T-\mathbf{y}^T)(A\mathbf{\theta}-\mathbf{y}) )\\ & = & \nabla ( \mathbf{\theta}^TA^TA\mathbf{\theta}-\mathbf{\theta}^TA^T\mathbf{y} - \mathbf{y}^TA\mathbf{\theta} + \mathbf{y}^T\mathbf{y} )\\ & = & \nabla ( \mathbf{\theta}^TA^TA\mathbf{\theta} - 2\mathbf{\theta}^TA^T\mathbf{y} + \mathbf{y}^T\mathbf{y} )\\ & = & \nabla (\mathbf{\theta}^TA^TA\mathbf{\theta}) - 2\nabla(\mathbf{\theta}^TA^T\mathbf{y}) + \nabla(\mathbf{y}^T\mathbf{y}) \\ & = & 2A^TA\mathbf{\theta}-2A^T\mathbf{y} \end{array} $$
¥O¤W¦¡±è«×µ¥©ó¹s¡A§Y¥i±o¨ì $\mathbf{\theta}$ ªº³Ì¨ÎÈ¡G $$ \hat{\mathbf{\theta}} = (A^TA)^{-1}A^T\mathbf{y} $$
MATLABµ{¦¡³]p¡G¶i¶¥½g![]()