酉矩阵、正交矩阵与标准型

节 8.3 酉矩阵、正交矩阵与标准型

如上一节所述，当我们在一个内积空间中考虑问题时，基的选择通常局限在标准正交基中。此时，基变换过程中的过渡矩阵不单单只要求可逆，还需要进一步限制在酉矩阵或正交矩阵中。于是，相似变换中的可逆矩阵也需要同步限制为酉矩阵或正交矩阵，这就导出了酉相似与正交相似的概念。本节中我们将介绍酉相似与正交相似标准型的相关结论。特别地，我们将介绍酉矩阵和正交矩阵这两类特殊矩阵的酉相似/正交相似标准型。

复内积空间中的酉矩阵与酉相似标准型结论更为一般、简单，但很多实际问题是局限在实数域上的，因此在接下来的介绍过程中，我们先给出复内积空间中的结论，然后再结合复内积空间的结论讨论实内积空间上的相关问题。

子节 8.3.1 酉相似与标准型

我们先给出酉相似的具体概念。

定义 8.3.1.

设 \(A,B\in \C^{n\times n}\)。若存在酉矩阵 \(U\)使得

\begin{equation*} B = U^{-1}AU = U^HAU, \end{equation*}

则称\(A\)与\(B\)酉相似。

结合酉矩阵的逆是酉矩阵，以及同阶酉矩阵相乘仍然是酉矩阵，容易验证酉相似关系也是一种等价关系。

酉相似是特殊的相似，若\(A\)与\(B\)酉相似，则\(A\)与\(B\)必定相似；反之则未必。

例 8.3.2. 相似但不酉相似.

取\(A ={\rm diag}(\lambda_1,\dots,\lambda_t) \)，其中\(\lambda_1,\dots,\lambda_t\)互不相同；取\(B = P^{-1}AP \)。当\(P\)的列向量组不是正交向量组时\(A\)与\(B\)相似但不是正交相似。这是因为\(A\)的特征子空间分解将空间分为\(t\)个两两正交的特征子空间的直和，而\(A\)的特征子空间分解中存在不相互正交的特征子空间。

下面我们把对相似关系成立的一个重要结论推广到酉相似关系。定理 7.3.20说明复方阵都可相似于上三角矩阵，这个结论可以加强到酉相似，相应的结论称为Schur上三角化定理。

定理 8.3.3. Schur上三角化.

任意复方阵都酉相似于上三角矩阵。

证明.

对复方阵\(A\)的阶数\(n\)作归纳法。

当\(n=1\)时，结论显然成立。

假设对\(n-1\)阶复方阵结论成立，以下考虑\(n\)阶复方阵\(A\)。由于\(A\)是复方阵，根据代数学基本定理，\(A\)存在特征值\(\lambda_1\in\mathbb{C}\)。设\(X_1\in\mathbb{C}^n\)是\(A\)属于\(\lambda_1\)的单位特征向量，可将其扩充为\(\C^n\)的一个标准正交基\((X_1,\ldots,X_n)\)。将该标准正交基中的向量按列拼成一个矩阵，记

\begin{equation*} U_1=(X_1,\ldots,X_n), \end{equation*}

根据定理 8.2.15，\(U_1\)是酉矩阵。根据定义可知

\begin{equation*} A(X_1,\ldots,X_n)=(X_1,\ldots,X_n)\begin{pmatrix} \lambda_1 & *\\ 0 & A_1 \end{pmatrix}, \end{equation*}

其中\(A_1\)是\(n-1\)阶复方阵，即

\begin{equation*} U_1^{-1}AU_1=\begin{pmatrix} \lambda_1 & *\\ 0 & A_1 \end{pmatrix}. \end{equation*}

由归纳假设，存在\(n-1\)阶酉矩阵\(U_2\)，使得\(U_2^{-1}A_1U_2\)为上三角矩阵，不妨记

\begin{equation*} U_2^{-1}A_1U_2=\begin{pmatrix} \lambda_2 & & *\\ & \ddots & \\ 0 & & \lambda_n \end{pmatrix}. \end{equation*}

取\(U=U_1\begin{pmatrix} 1 & 0\\ 0 & U_2 \end{pmatrix}\)，则\(U\)是\(n\)阶酉矩阵，且

\begin{equation*} U^{-1}AU=\begin{pmatrix} \lambda_1 & *\\ 0 & U_2^{-1}A_1U_2 \end{pmatrix}=\begin{pmatrix} \lambda_1 & & *\\ & \ddots & \\ 0 & & \lambda_n \end{pmatrix} \end{equation*}

是上三角矩阵，结论成立。

证法二：由于\(A\)为复方阵，所以由定理 7.3.20，存在\(n\)阶可逆复矩阵\(P\)，使得

\begin{equation*} P^{-1}AP = \begin{pmatrix} \lambda_1 & & * \\ & \ddots & \\ 0 & & \lambda_n \end{pmatrix} \end{equation*}

为上三角矩阵。将可逆矩阵\(P\)作QR分解，存在酉矩阵\(U\)及对角元均大于0的上三角矩阵\(R\)，使得\(P=UR\)。则

\begin{equation*} U^{-1}AU=R(P^{-1}AP)R^{-1}. \end{equation*}

由于\(P^{-1}AP,R,R^{-1}\)都是上三角矩阵，所以乘积矩阵\(R(P^{-1}AP)R^{-1}\)仍为上三角矩阵，即\(U^{-1}AU\)是上三角矩阵，结论成立。

接下来我们应用定理 8.3.3来研究酉矩阵的酉相似标准型。

定理 8.3.4.

设\(A\)是\(n\)阶酉矩阵，则存在\(n\)阶酉矩阵\(U\)，使得

\begin{equation*} U^{-1}AU=U^HAU \end{equation*}

为对角矩阵，且主对角元都是模为\(1\)的复数。

等价地，设\(\phi\)是\(n\)维酉空间的酉变换，则存在一个标准正交基，使得\(\phi\)在此基下的矩阵是对角矩阵，且主对角元都是模为\(1\)的复数。

证明.

根据定理 8.3.3，存在酉矩阵\(U\)使得\(U^{-1}AU\)为上三角矩阵。由\(U^{-1},A,U\)都是酉矩阵可知，\(U^{-1}AU\)仍为酉矩阵。注意到上三角酉矩阵必是对角矩阵，且主对角元是模为\(1\)的复数，所以结论成立。

推论 8.3.5.

酉矩阵的特征值是模为\(1\)的复数。

推论 8.3.6.

酉矩阵属于不同特征值的特征子空间两两正交。

子节 8.3.2 正交相似与标准型

很多实际问题都局限在实数域上，实数域本身也是最常用的数域，因此，有必要将我们的讨论限制在实数域上。

定义 8.3.7.

设 \(A,B\in \R^{n\times n}\)。若存在正交矩阵 \(Q\)使得

\begin{equation*} B = Q^{-1}AQ = Q^TAQ, \end{equation*}

则称\(A\)与\(B\)正交相似。

类似于复方阵的Schur上三角化定理，一些实方阵也可正交上三角化，不过此时需要矩阵的特征值都是实数。

推论 8.3.8.

设 \(A\in \R^{n\times n}\)。若\(A\)的所有特征值都是实数，则\(A\)正交相似于实上三角阵。

证明.

下面考虑正交矩阵的标准型。先来考虑\(\R^2\)空间上的正交变换，即2阶正交矩阵。由于正交矩阵的列向量组和行向量组都是标准正交基，所以正交矩阵只可能是下面两种形式之一：

\begin{equation*} Q_1 = \begin{pmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{pmatrix},\quad Q_2 = \begin{pmatrix} \cos\theta & \sin\theta\\ \sin\theta & -\cos\theta \end{pmatrix}. \end{equation*}

简单计算可知：\(Q_1\)的特征值是\(\cos\theta\pm i \sin\theta \)，\(Q_2\)的特征值是\(\pm 1\)。

正交矩阵是特殊的酉矩阵，所有正交矩阵的特征值也都是模为\(1\)的复数。当一个正交矩阵\(A\)存在不是实数的特征值时，\(A\)不可能正交相似于实对角矩阵。注意到实矩阵不是实数的特征值都是成对出现的，所以有下面的引理。

引理 8.3.9.

设\(A\)为正交阵，\(\lambda=a+bi(b\ne 0)\)为\(A\)的一个复特征值， \(X=\alpha+i \beta\)为对应的一个特征向量，其中\(\alpha,\beta\in \mathbb{R}^n\)，则\(\alpha\perp \beta\)，且\(|\alpha|=|\beta|\)。

证明.

因为\(AX=\lambda X\)，即\(A(\alpha+i \beta)=(a+bi)(\alpha+i \beta)\)，所以

\begin{equation*} A\alpha=a\alpha-b\beta,A\beta=b\alpha+a\beta. \end{equation*}

由\(A\)

沿用引理 8.3.9中的记号。因\(|\lambda|=1\)， \(a^2+b^2=1\)，故可设\(a=\cos\theta,b=-\sin\theta\)。令特征方程中\(AX=\lambda X\)中实部和虚部对应相等可得：

\begin{equation*} A \alpha=a \alpha-b \beta=(\alpha,\beta)\begin{pmatrix} \cos\theta\\ \sin\theta \end{pmatrix}, \end{equation*}

\begin{equation*} A\beta=b \alpha+a \beta=(\alpha,\beta)\begin{pmatrix} -\sin\theta\\\cos\theta \end{pmatrix}. \end{equation*}

即

\begin{equation*} A(\alpha,\beta)=(\alpha,\beta)\begin{pmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{pmatrix}. \end{equation*}

于是有下面的结论。

定理 8.3.10.

设\(A\)是\(n\)阶正交矩阵，则存在\(n\)阶正交矩阵\(Q\)，使\(Q^{-1}AQ=Q^TAQ\)是分块对角阵

\begin{equation} {\rm diag}\left(E_r,-E_s,\begin{pmatrix} \cos\theta_1& -\sin\theta_1\\ \sin\theta_1& \cos\theta_1 \end{pmatrix},\cdots,\begin{pmatrix} \cos\theta_\ell& -\sin\theta_\ell\\ \sin\theta_\ell& \cos\theta_\ell \end{pmatrix}\right),\tag{8.3.1} \end{equation}

其中\(r+s+2\ell=n\)。

等价地，设\(\phi\)是\(n\)维欧氏空间\(V\)的正交变换，则存在一个标准正交基，使得\(\phi\)在此基下的矩阵型如(8.3.1)。

子节 8.3.3 “初等”正交矩阵

可逆矩阵可以分解为3类初等矩阵的乘积，正交矩阵也可以做类似的分解。

沿用定理 8.3.10中的记号，一个正交矩阵\(A\)中每一对互为共轭的特征值都可以对应于标准型中一个对角块

\begin{equation*} \begin{pmatrix} \cos\theta_j& -\sin\theta_j\\ \sin\theta_j& \cos\theta_j \end{pmatrix}\triangleq R_{\theta_j}. \end{equation*}

从变换的角度，这一对互为共轭的特征值也对应一个2维的不变子空间，记此不变子空间为\(V_j\)。将正交变换\(A\)局限作用在\(V_j\)上，则其作用效果等同于用\(R_{\theta_j}\)作用在\(\R^2\)上，即将\(V_j\)空间绕坐标原点沿逆时针方向旋转角\(\theta_j\)。我们引入如下术语。

定义 8.3.11.

设\(Q\)是一个\(n\)阶正交矩阵。若\(Q\)正交相似于分块对角矩阵

\begin{equation*} {\rm diag}\left(E_{n-2},\begin{pmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{pmatrix}\right), \end{equation*}

则称\(Q\)是一个初等旋转矩阵，也称为Givens矩阵/变换。

在初等旋转矩阵的定义中，我们允许\(\theta = k\pi,\ k\in \Z\)：当\(\theta = 2k\pi\)时初等旋转矩阵就是单位矩阵，所作变换相当于旋转0度角；当\(\theta = (2k+1)\pi\)时，初等旋转矩阵的特征值为\(n-2\)个\(1\)和\(2\)个\(-1\)，所做变换限制在\(-1\)的特征子空间上是一个\(180^{\circ}\)的旋转。

标准型中的一个\(-1\)特征值可以与下面的正交变换相对应。

定义 8.3.12.

设\(Q\)是一个\(n\)阶正交矩阵。若\(Q\)正交相似于分块对角矩阵

\begin{equation*} {\rm diag}\left(E_{n-1},-1\right), \end{equation*}

则称\(Q\)是一个反射矩阵，也称为镜面反射，或Householder矩阵/变换。

我们有下面的结论。

定理 8.3.13.

一个正交矩阵\(Q\)是反射矩阵的充分必要条件为存在一个单位向量\(\eta\)，使得

\begin{equation*} Q=E_n -2\eta \eta^T. \end{equation*}

证明.

镜面反射也有明显的几何特征。设\(Q=E_n -2\eta \eta^T\)，其中\(\eta\)是一个单位向量。记 \(W = \langle\eta\rangle^{\perp}\)，即\(W\)是与\(\eta\)垂直的\(n-1\)维子空间。对于\(\forall \alpha\in \R^n\)，

\begin{equation*} \alpha -Q\alpha = 2\eta \eta^T\alpha = 2(\alpha,\eta)\cdot \eta \perp W, \end{equation*}

\begin{equation*} \frac{\alpha+ Q\alpha}{2} = \alpha - (\alpha,\eta)\cdot \eta = {\rm Proj}_{W}(\alpha)\in W, \end{equation*}

也就是说\(\alpha\)与\(Q\alpha\)关于\(n-1\)维子空间\(W\)对称。若我们将\(W\)想象为一个高维镜面，则\(Q\alpha\)恰好是\(\alpha\)在镜面\(W\)中的像，这也是此种变换称为镜面反射的原因。

镜面反射是比初等旋转矩阵还要基本的一种矩阵，容易看到每一个初等旋转矩阵都可以分解为两个反射矩阵的乘积（见作业题）。根据标准型定理，每一个正交矩阵都可以写成一些初等旋转矩阵与一个反射矩阵的乘积，进而每一个正交矩阵都可以分解为若干个反射矩阵的乘积。

本节的最后，我们给出正交矩阵的一个分类。

定义 8.3.14.

设\(Q\)是一个正交矩阵。

若\(\det Q=1\)，则称\(Q\)是第一类正交矩阵。
若\(\det Q=-1\)，则称\(Q\)是第二类正交矩阵。

我们把初等旋转矩阵和反射矩阵称为初等正交矩阵。在把一般正交矩阵分解为初等正交矩阵乘积的过程中，第一类正交矩阵的分解只需要用到初等旋转矩阵，第二类正交矩阵的分解至少用到一个反射矩阵。

初等旋转矩阵和反射矩阵作为变换都有典型的几何意义。理解和熟练使用这两种变换对于解决很多实际问题都有很大帮助。特别地，反射矩阵在广义QR分解和矩阵特征值估计的数值算法中都有重要应用，有兴趣的同学可以查阅数值代数的相关专业书籍，如 Gene H. Golub and Charles F. Van Loan, Matrix Computations (4th edition), Baltimore: The Johns Hopkins University Press, 2013.

练习 8.3.4 练习

基础题.

1.

提高题.

2.

设\(\varphi\)是欧氏空间\(V\)上的变换，且对任意\(\alpha,\beta\in V\)，都有

\begin{equation*} \left(\varphi(\alpha),\varphi(\beta)\right)=\left(\alpha,\beta\right), \end{equation*}

证明：\(\varphi\)是线性变换，因而是正交变换。

3.

设\(\varphi\)是正交变换，\(U\)是\(\varphi\)-子空间，证明：\(U^\perp\)也是\(\varphi\)-子空间。

4.

设\(\varphi\)是酉变换，证明：\(\varphi\)的属于不同特征值的特征向量必正交。

5.

设\(\xi,\eta\)是\(n\)维欧氏空间\(V\)中两个不同的单位向量，证明：存在一个镜面反射\(\varphi\)，使得\(\varphi(\xi)=\eta\)。

挑战题.

6.

证明：\(n\)维欧氏空间\(V\)中任意正交变换\(\varphi\)都可以表为一系列镜面反射的乘积。

7.

设\(\alpha_1,\alpha_2,\cdots ,\alpha_m\)和\(\beta_1,\beta_2,\cdots ,\beta_m\)是\(n\)维欧氏空间\(V\)中的两个向量组，证明：存在\(V\)上的一个正交变换\(\varphi\)，使得

\begin{equation*} \varphi(\alpha_i)=\beta_i,\ i=1,2,\cdots ,m \end{equation*}

的充分必要条件是

\begin{equation*} \left(\alpha_i,\alpha_j\right)=\left(\beta_i,\beta_j\right),\ i,j=1,2,\cdots ,m. \end{equation*}

8.

记

\begin{equation*} R_{xy}= \left\{ \left.\begin{pmatrix} \cos\theta & -\sin\theta & 0 \\ \sin\theta & \cos\theta & 0 \\ 0 & 0 & 1 \end{pmatrix}\right| \theta\in \R \right\},\quad \mbox{（xoy平面上的旋转）} \end{equation*}

\begin{equation*} R_{yz}= \left\{ \left.\begin{pmatrix} 1 & 0 & 0\\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{pmatrix}\right| \theta\in \R \right\},\quad \mbox{（yoz平面上的旋转）} \end{equation*}

证明：对欧氏空间\(\R^3\)上的第一类正交变换\(A\)，存在\(B_1,B_2\in R_{xy}\)，\(C\in R_{yz}\)，使得

\begin{equation*} A = B_1CB_2. \end{equation*}

向前 Top 向后