节 8.4 实对称矩阵和Hermite矩阵
本节中我们介绍实对称矩阵和Hermite矩阵的性质。实对称矩阵和Hermite矩阵可以说是性质最好同时是应用范围最广的两类矩阵。特别地,实对称矩阵和Hermite矩阵是二次型部分需要使用的主要工具。
子节 8.4.1 实对称矩阵、Hermite矩阵及其标准型
本节中涉及到的矩阵都是方阵。我们先来明确一下讨论的对象。
Hermite矩阵具有非常好的性质。
定理 8.4.2.
设\(H\)是\(n\)阶Hermite矩阵,则
-
\(H\)的特征根全为实数;
证明.
-
设\(\lambda\)是\(H\)的一个特征根,\(X\)是对应的特征向量,则有\(HX=\lambda X\)。两端取共轭转置,得\(X^H H = \overline{\lambda} X^H\)。考虑表达式\(X^H H X\),利用结合率可得\begin{equation*} \overline{\lambda} X^HX =X^H H X=X^H (H X)= \lambda X^HX. \end{equation*}由于\(X^H X\ne 0\),所以\(\overline{\lambda}=\lambda\),即\(\lambda\)是实数。
-
设\(\lambda_1,\lambda_2\)是\(H\)的两个不同特征根,\(X_1,X_2\)分别是对应的特征向量,则有\(HX_1=\lambda_1 X_1\)和\(HX_2=\lambda_2 X_2\)。两端取共轭转置,得\(X_1^H H = \overline{\lambda}_1 X_1^H\)和\(X_2^H H = \overline{\lambda}_2 X_2^H\)。考虑表达式\(X_1^H H X_2\),利用结合率可得\begin{equation*} \overline{\lambda}_1 X_1^H X_2 =X_1^H H X_2=X_1^H (H X_2)= \lambda_2 X_1^HX_2. \end{equation*}由于\(\lambda_1\ne \lambda_2\),所以\(X_1^HX_2=0\),即\(X_1,X_2\)在\(\mathbb{C}^n\)中相互正交。
-
\begin{equation*} \Lambda^H = U^H H U = \Lambda, \end{equation*}可知\(\Lambda\)是实对角阵。
推论 8.4.3.
设\(A\)是\(n\)阶实对称矩阵,则
-
\(A\)的特征根全为实数;
Hermite矩阵/实对称矩阵都可对角化,将其对角化的过程和一般对角化过程稍有不同。不同点主要在于Hermite矩阵/实对称矩阵需要的过渡矩阵是酉矩阵/正交矩阵,即所求的特征向量组需要是一组标准正交基。对于单特征值,其对应的特征向量只需要单位化就可以了;对于多重特征值 \(\lambda\),通过解特征方程\((\lambda E - A)X=0\)获得的基础解系通常都不是标准正交向量组,此时需要利用Gram-Schmidt标准正交化过程获得与基础解系等价的标准正交向量组。我们来看一个具体的例子。
例 8.4.4. 实对称矩阵的正交对角化.
求正交阵\(Q\),使得\(Q^TAQ\)是实对角阵,其中\(A=\begin{pmatrix} 2 & 2 & -2\\ 2 & 5 & -4\\ -2 & -4 & 5\end{pmatrix}\)。
解答.
先求出\(A\)的特征值。由于
\begin{equation*}
\det(\lambda E - A) = \det\begin{pmatrix}
\lambda-2 & -2 & 2\\
-2 & \lambda-5 & 4\\
2 & 4 & \lambda-5
\end{pmatrix} = (\lambda-1)^2(\lambda-10),
\end{equation*}
因此\(A\)的特征值是\(\lambda_1=10\),\(\lambda_2=1\),\(\lambda_3=1\)。
对于特征值\(\lambda_1=10\),解特征方程\((10 E - A)X=0\),得到基础解系\(\{(1,2,-2)^T\}\)。单位化后得到单位特征向量
\begin{equation*}
e_1=(\frac{1}{3},\frac{2}{3},-\frac{2}{3})^T.
\end{equation*}
对\(\lambda_2=\lambda_3=1\),求解特征方程\((E-A)X=0\),得到基础解系\(\{(0,1,1)^T,(2,-1,0)^T\}\)。利用Gram-Schmidt标准正交化过程,得到标准正交向量组
\begin{equation*}
e_2=(0,\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}})^T,\quad e_3=(\frac{4}{\sqrt{18}},-\frac{1}{\sqrt{18}},\frac{1}{\sqrt{18}})^T.
\end{equation*}
取
\begin{equation*}
Q= (e_1,e_2,e_3) = \begin{pmatrix}
\frac{1}{3} & 0 & \frac{4}{\sqrt{18}}\\
\frac{2}{3} & \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{18}}\\
-\frac{2}{3} & \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{18}},
\end{pmatrix}.
\end{equation*}
则
\begin{equation*}
Q^TAQ = \begin{pmatrix}
10 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{pmatrix}.
\end{equation*}
子节 8.4.2 谱分解
矩阵\(A\)的所有特征值构成的多重集也称为\(A\)的谱,记做\({\rm spec}(A)\)。在多重集\({\rm spec}(A)\)中,一个特征值\(\lambda\)出现的次数就是它的代数重数。
Hermite矩阵/实对称矩阵有一种重要且常用的分解方式。
定理 8.4.5. 谱分解.
设\(A\)是一个\(n\)阶Hermite矩阵,\(\lambda_1, \dots,\lambda_t\)是\(A\)的所有不同特征值。则存在投影矩阵\(P_1,\dots,P_t\),使得
\begin{equation}
A = \lambda_1P_1+\cdots+\lambda_t P_t,\tag{8.4.1}
\end{equation}
其中\(P_1,\dots,P_t\)满足
-
\(P_1+\cdots +P_t =E_n\);
-
\(P_jP_k = 0,\forall j\ne k\);
-
\(P_j\)是到\(\lambda_j\)的特征子空间\(V_{\lambda_j}\)的正交投影矩阵,即对任意\(\alpha\in \C^n\),\begin{equation*} P_j\alpha = {\rm Proj}_{V_{\lambda_j}} (\alpha) . \end{equation*}
证明.
记\(V_{\lambda_j} (j=1,\dots,t)\)特征值\(\lambda_j\)的特征子空间,根据 定理 8.4.2,\(V_{\lambda_1},\dots V_{\lambda_t} \)两两正交,且
\begin{equation*}
V_{\lambda_1}\oplus\cdots\oplus V_{\lambda_t} =\C^n.
\end{equation*}
在每一个\(V_{\lambda_j}\)中选取一组标准正交基\((\xi_{j1},\dots,
\xi_{j\ell_j})\),其中\(\ell_j\)是\(\lambda_j\)的几何重数,记这组标准正交基组成的矩阵为\(U_j\),则
\begin{equation*}
U = (U_1\dots,U_t)
\end{equation*}
是一个酉矩阵,且
\begin{equation*}
A= (U_1\dots,U_t)\begin{pmatrix}
\lambda_1 E_{\ell_1} & & \\
& \ddots & \\
& & \lambda_t E_{\ell_t}
\end{pmatrix}\begin{pmatrix}
U_1^H\\\vdots\\ U_t^H
\end{pmatrix}.
\end{equation*}
取\(P_j = U_jU_j^H\),按分块矩阵的乘法,可知
\begin{align*}
A= \amp U_1\cdot\lambda_1 E_{\ell_1} U_1^H+\cdots+ U_t\cdot \lambda_t E_{\ell_t} U_t^H \\
= \amp \lambda_1 P_1+\cdots= \lambda_t P_t.
\end{align*}
下面验证\(P_1,\dots,P_t\)需要满足的性质:
-
按分块矩阵乘法\begin{align*} E_n = UU^H = \amp (U_1,\dots, U_t)\begin{pmatrix} U_1^H\\\vdots\\ U_t^H \end{pmatrix} \\ = \amp P_1+\cdots+P_t. \end{align*}
-
由于\(V_{\lambda_1},\dots V_{\lambda_t} \)两两正交,所以当\(j\ne k\)时,\(U_j\)和\(U_k\)的列向量组两两正交,因此\(P_jP_k = U_j(U_j^H U_k)U_k^H = 0\)。
-
对任意的\(\alpha\in \C^n\),记\(\alpha_j = P_j \alpha\),\(j=1,\dots,t\)。根据\(P_j\)的定义,\begin{equation*} \alpha_j = U_j(U_j^H\alpha)= \sum_{k=1}^{\ell_j} \left(\alpha,\xi_{jk}\right) \xi_{jk} = {\rm Proj}_{V_{\lambda_j}} (\alpha). \end{equation*}
根据谱分解的表达式,对任意的\(\alpha\),
\begin{equation*}
A\alpha = \lambda_1 P_1\alpha+\cdots+\lambda_t P_t\alpha.
\end{equation*}
即\(A\)的作用等价于先求\(\alpha\)在\(V_{\lambda_1},\dots,V_{\lambda_t}\)上的正交投影后,对每一个投影向量分别乘以对应的特征值\(\lambda_1,\dots,\lambda_t\),然后在用向量加法求出\(\alpha\)的像。
Hermite矩阵/实对称矩阵与实对角矩阵有很多共通的性质,可以认为Hermite矩阵/实对称矩阵是实对角矩阵的推广。Hermite矩阵/实对称矩阵的重要性可以类比于实数在复数集中的重要性。
在矩阵分析中,Hermite矩阵/实对称矩阵还有很多很好的性质,如Courant-Fischer定理(也称Min-Max定理)、Cauchy交错(Interlacing)定理等,有兴趣的同学可以自行查阅。
子节 8.4.3 自伴算子*
接下来我们从线性变换角度来理解Hermite矩阵/实对称矩阵。泛函分析中,内积空间上的线性变换也常常被称为线性算子。
设\(V\)是一个\(n\)维酉空间,\(\phi\)是\(V\)上的一线性变换。取定\(V\)的一个标准正交基\((\xi_1,\dots,\xi_n)\)后,记\(\phi\)在\((\xi_1,\dots,\xi_n)\)下的表示矩阵为\(A = (a_{jk})_{n\times n}\)。
对\(\forall \alpha,\beta\in V\),记\(\alpha\)和\(\beta\)在\((\xi_1,\dots,\xi_n)\)下的坐标分别为\(X\)和\(Y\),考察关于\(\alpha,\beta\)的函数
\begin{equation*}
\left(\phi(\alpha),\beta\right) = Y^HAX,
\end{equation*}
利用矩阵乘法结合率,上式也被改写为
\begin{equation*}
\left(\phi(\alpha),\beta\right) = Y^HAX=(A^HY)^HX.
\end{equation*}
现记以矩阵\(A^H=(\overline{a_{kj}})_{n\times n}\)为表示矩阵的\(V\)上线性变换为\(\psi\)(空间\(V\)的标准正交基仍取\((\xi_1,\dots,\xi_n)\)),则
\begin{equation*}
\left(\phi(\alpha),\beta\right) = Y^HAX=(A^HY)^HX =\left(\alpha,\psi(\beta)\right).
\end{equation*}
于是,有下面的定义。
定义 8.4.6.
设\(\phi\)是内积空间\(V\)上的线性算子。若存在\(V\)上的线性算子\(\psi\),使得对\(\forall \alpha,\beta\in V\),
\begin{equation*}
\left(\phi(\alpha),\beta\right) =\left(\alpha,\psi(\beta)\right)
\end{equation*}
均成立,则称\(\psi\)是线性算子\(\phi\)的伴随算子。
定理 8.4.7.
证明.
选定\(V\)的一组标准正交基\((\xi_1,\dots,\xi_n)\),记\(\phi\)在\((\xi_1,\dots,\xi_n)\)下的表示矩阵为\(A=(a_{jk})_{n\times n}\)。则根据上面的讨论可知\(\psi\)是\(\phi\)的伴随算子当且仅当\(\psi\)在标准正交基\((\xi_1,\dots,\xi_n)\)下的表示矩阵为\(A^H=(\overline{a_{kj}})_{n\times n}\)。由于\(A^H\)是\(A\)的唯一伴随矩阵,所以\(\psi\)是唯一的。
一个线性算子和其伴随算子从表示矩阵的角度也有密切联系。
定理 8.4.8.
设\(\phi\)是\(n\)维内积空间\(V\)上的线性算子。选定\(V\)的一组标准正交基\((\xi_1,\dots,\xi_n)\),记\(\phi\)在\((\xi_1,\dots,\xi_n)\)下的表示矩阵为\(A\),则\(\phi^*\)在\((\xi_1,\dots,\xi_n)\)下的表示矩阵为\(A^H\)。
若一个线性算子\(\phi\)的伴随算子就是\(\phi\)本身,即
\begin{equation*}
\phi=\phi^*,
\end{equation*}
则称\(\phi\)为自伴算子。
由定理 8.4.8可知,在选定标准正交基的前提下,有限维内积空间上的自伴算子与Hermite矩阵一一对应。二者是一体两面的关系。Hermite矩阵上成立的性质都可以平行移植给自伴算子,这里不再赘述。
子节 8.4.4 正规矩阵/正规算子*
Hermit矩阵是酉相似于实对角矩阵的矩阵。接下来我们研究可以酉相似于一般对角矩阵的矩阵,即酉相似下的可对角化问题。酉相似下可对角化问题比一般相似下可对角化问题要简单得多。
定义 8.4.9.
定理 8.4.10.
证明.
-
充分性:设\begin{equation*} U^{-1}AU =\Lambda ={\rm diag}(\lambda_1,\dots,\lambda_n), \end{equation*}容易验证\begin{equation*} \Lambda\Lambda^H= \Lambda^h\Lambda = {\rm diag}(|\lambda_1|^2,\dots,|\lambda_n|^2). \end{equation*}另一方面\(A = U\Lambda U^{-1} = U\Lambda U^{H}\),于是\begin{equation*} AA^H = U\Lambda U^{H}U\Lambda^H U^{-1} = U\Lambda \Lambda^H U^{-1} = A^HA. \end{equation*}
-
必要性:根据 定理 8.3.3,存在酉矩阵\(U\),使得\begin{equation*} U^{-1}AU= B = \begin{pmatrix} b_{11} & \cdots & b_{1n}\\ & \ddots & \vdots \\ 0 & & b_{nn} \end{pmatrix} \end{equation*}是上三角矩阵。由于\(A\)是正规矩阵,\(AA^H=A^HA\),可知\(BB^H=B^HB\)。按对应元素相等验证等式\(BB^H=B^HB\):\begin{equation*} \sum_{k=1}^n b_{1k}\overline{b_{1k}} = (BB^H)_{11} = (B^HB)_{11} = b_{11}\overline{b_{11}}, \end{equation*}于是\begin{equation*} \sum_{k=2}^n b_{1k}\overline{b_{1k}} = \sum_{k=2}^n |b_{1k}|^2 = 0, \end{equation*}因此可知\begin{equation*} b_{12}=\cdots=b_{1n} =0. \end{equation*}同理,利用\((BB^H)_{22} = (B^HB)_{22} \)可推知\begin{equation*} b_{23}=\cdots=b_{2n} =0. \end{equation*}依此类推,直到\(b_{n-1,n}=0\)。因此\(B\)是对角矩阵。
练习 8.4.5 练习
基础题.
1.
2.
3.
4.
提高题.
5.
设\(\lambda_1,\dots ,\lambda_n\in\mathbb{R}\),\(\lambda_{\sigma(1)},\dots ,\lambda_{\sigma(n)}\)是\(\lambda_1,\dots ,\lambda_n\)的一个排列。证明:diag\((\lambda_1,\dots ,\lambda_n)\)正交相似于diag\((\lambda_{\sigma(1)},\dots ,\lambda_{\sigma(n)})\)。
6.
设\(A\)是\(n\)阶实对称矩阵,且\(A^2=A\),证明:存在正交矩阵\(Q\),使得
\begin{equation*}
Q^{-1}AQ=Q^TAQ=\begin{pmatrix}
E_r&0\\0&0
\end{pmatrix}.
\end{equation*}
7.
8.
9.
10.
设\(\varphi\)是欧氏空间\(V\)上的线性变换。如果对于任意\(\alpha,\beta\in V\),
\begin{equation*}
\left(\varphi(\alpha),\beta\right)=-\left(\alpha,\varphi(\beta)\right),
\end{equation*}
则称\(\varphi\)反对称。 证明: