主要内容

高等代数: 多项式与线性代数

8.3 酉矩阵、正交矩阵与标准型

如上一节所述,当我们在一个内积空间中考虑问题时,基的选择通常局限在标准正交基中。此时,基变换过程中的过渡矩阵不单单只要求可逆,还需要进一步限制在酉矩阵或正交矩阵中。于是,相似变换中的可逆矩阵也需要同步限制为酉矩阵或正交矩阵,这就导出了酉相似与正交相似的概念。本节中我们将介绍酉相似与正交相似标准型的相关结论。特别地,我们将介绍酉矩阵和正交矩阵这两类特殊矩阵的酉相似/正交相似标准型。
复内积空间中的酉矩阵与酉相似标准型结论更为一般、简单,但很多实际问题是局限在实数域上的,因此在接下来的介绍过程中,我们先给出复内积空间中的结论,然后再结合复内积空间的结论讨论实内积空间上的相关问题。

子节 8.3.1 酉相似与标准型

我们先给出酉相似的具体概念。

定义 8.3.1.

\(A,B\in \C^{n\times n}\)。若存在酉矩阵 \(U\)使得
\begin{equation*} B = U^{-1}AU = U^HAU, \end{equation*}
则称\(A\)\(B\)酉相似
结合酉矩阵的逆是酉矩阵,以及同阶酉矩阵相乘仍然是酉矩阵,容易验证酉相似关系也是一种等价关系。
酉相似是特殊的相似,若\(A\)\(B\)酉相似,则\(A\)\(B\)必定相似;反之则未必。

8.3.2. 相似但不酉相似.

\(A ={\rm diag}(\lambda_1,\dots,\lambda_t) \),其中\(\lambda_1,\dots,\lambda_t\)互不相同;取\(B = P^{-1}AP \)。当\(P\)的列向量组不是正交向量组时\(A\)\(B\)相似但不是正交相似。这是因为\(A\)的特征子空间分解将空间分为\(t\)个两两正交的特征子空间的直和,而\(A\)的特征子空间分解中存在不相互正交的特征子空间。
下面我们把对相似关系成立的一个重要结论推广到酉相似关系。定理 7.3.20说明复方阵都可相似于上三角矩阵,这个结论可以加强到酉相似,相应的结论称为Schur上三角化定理。

证明.

接下来我们应用定理 8.3.3来研究酉矩阵的酉相似标准型。

子节 8.3.2 正交相似与标准型

很多实际问题都局限在实数域上,实数域本身也是最常用的数域,因此,有必要将我们的讨论限制在实数域上。

定义 8.3.5.

\(A,B\in \R^{n\times n}\)。若存在正交矩阵 \(Q\)使得
\begin{equation*} B = Q^{-1}AQ = Q^TAQ, \end{equation*}
则称\(A\)\(B\)正交相似
类似于复方阵的Schur上三角化定理,一些实方阵也可正交上三角化,不过此时需要矩阵的特征值都是实数。

证明.

下面考虑正交矩阵的标准型。先来考虑\(\R^2\)空间上的正交变换,即2阶正交矩阵。由于正交矩阵的列向量组和行向量组都是标准正交基,所以正交矩阵只可能是下面两种形式之一:
\begin{equation*} Q_1 = \begin{pmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{pmatrix},\quad Q_2 = \begin{pmatrix} \cos\theta & \sin\theta\\ \sin\theta & -\cos\theta \end{pmatrix}. \end{equation*}
简单计算可知:\(Q_1\)的特征值是\(\cos\theta\pm i \sin\theta \)\(Q_2\)的特征值是\(\pm 1\)
正交矩阵是特殊的酉矩阵,所有正交矩阵的特征值也都是模为\(1\)的复数。当一个正交矩阵\(A\)存在不是实数的特征值时,\(A\)不可能正交相似于实对角矩阵。注意到实矩阵不是实数的特征值都是成对出现的,所以有下面的引理。

证明.

沿用 引理 8.3.7中的记号。因\(|\lambda|=1\)\(a^2+b^2=1\),故可设\(a=\cos\theta,b=-\sin\theta\)。令特征方程中\(AX=\lambda X\)中实部和虚部对应相等可得:
\begin{equation*} A \alpha=a \alpha-b \beta=(\alpha,\beta)\begin{pmatrix} \cos\theta\\ \sin\theta \end{pmatrix}, \end{equation*}
\begin{equation*} A\beta=b \alpha+a \beta=(\alpha,\beta)\begin{pmatrix} -\sin\theta\\\cos\theta \end{pmatrix}. \end{equation*}
\begin{equation*} A(\alpha,\beta)=(\alpha,\beta)\begin{pmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{pmatrix}. \end{equation*}
于是有下面的结论。

子节 8.3.3 “初等”正交矩阵

可逆矩阵可以分解为3类初等矩阵的乘积,正交矩阵也可以做类似的分解。
沿用定理 8.3.8中的记号,一个正交矩阵\(A\)中每一对互为共轭的特征值都可以对应于标准型中一个对角块
\begin{equation*} \begin{pmatrix} \cos\theta_j& -\sin\theta_j\\ \sin\theta_j& \cos\theta_j \end{pmatrix}\triangleq R_{\theta_j}. \end{equation*}
从变换的角度,这一对互为共轭的特征值也对应一个2维的不变子空间,记此不变子空间为\(V_j\)。将正交变换\(A\)局限作用在\(V_j\)上,则其作用效果等同于用\(R_{\theta_j}\)作用在\(\R^2\)上, 即将\(V_j\)空间绕坐标原点沿逆时针方向旋转角\(\theta_j\)。我们引入如下术语。

定义 8.3.9.

\(Q\)是一个\(n\)阶正交矩阵。若\(Q\)正交相似于分块对角矩阵
\begin{equation*} {\rm diag}\left(E_{n-2},\begin{pmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{pmatrix}\right), \end{equation*}
则称\(Q\)是一个初等旋转矩阵,也称为Givens矩阵/变换
在初等旋转矩阵的定义中,我们允许\(\theta = k\pi,\ k\in \Z\):当\(\theta = 2k\pi\)时初等旋转矩阵就是单位矩阵,所作变换相当于旋转0度角;当\(\theta = (2k+1)\pi\)时,初等旋转矩阵的特征值为\(n-2\)\(1\)\(2\)\(-1\),所做变换限制在\(-1\)的特征子空间上是一个\(180^{\circ}\)的旋转。
标准型中的一个\(-1\)特征值可以与下面的正交变换相对应。

定义 8.3.10.

\(Q\)是一个\(n\)阶正交矩阵。若\(Q\)正交相似于分块对角矩阵
\begin{equation*} {\rm diag}\left(E_{n-2},-1\right), \end{equation*}
则称\(Q\)是一个反射矩阵,也称为镜面反射,或Householder矩阵/变换
我们有下面的结论。

证明.

镜面反射也有明显的几何特征。设\(Q=E_n -2\eta \eta^T\),其中\(\eta\)是一个单位向量。记 \(W = \langle\eta\rangle^{\perp}\),即\(W\)是与\(\eta\)垂直的\(n-1\)维子空间。对于\(\forall \alpha\in \R^n\)
\begin{equation*} \alpha -Q\alpha = 2\eta \eta^T\alpha = 2(\alpha,\eta)\cdot \eta \perp W, \end{equation*}
\begin{equation*} \frac{\alpha+ Q\alpha}{2} = \alpha - (\alpha,\eta)\cdot \eta = {\rm proj}_{W}(\alpha)\in W, \end{equation*}
也就是说\(\alpha\)\(Q\alpha\)关于\(n-1\)维子空间\(W\)对称。若我们将\(W\)想象为一个高维镜面,则\(Q\alpha\)恰好是\(\alpha\)在镜面\(W\)中的像,这也是此种变换称为镜面反射的原因。
镜面反射是比初等旋转矩阵还要基本的一种矩阵,容易看到每一个初等旋转矩阵都可以分解为两个反射矩阵的乘积(见作业题)。根据标准型定理,每一个正交矩阵都可以写成一些初等旋转矩阵与一个反射矩阵的乘积,进而每一个正交矩阵都可以分解为若干个反射矩阵的乘积。
本节的最后,我们给出正交矩阵的一个分类。

定义 8.3.12.

\(Q\)是一个正交矩阵。
  • \(\det Q=1\),则称\(Q\)第一类正交矩阵
  • \(\det Q=-1\),则称\(Q\)第二类正交矩阵
我们把初等旋转矩阵和反射矩阵称为初等正交矩阵。在把一般正交矩阵分解为初等正交矩阵乘积的过程中,第一类正交矩阵的分解只需要用到初等旋转矩阵,第二类正交矩阵的分解至少用到一个反射矩阵。
初等旋转矩阵和反射矩阵作为变换都有典型的几何意义。理解和熟练使用这两种变换对于解决很多实际问题都有很大帮助。特别地,反射矩阵在广义QR分解和矩阵特征值估计的数值算法中都有重要应用,有兴趣的同学可以查阅数值代数的相关专业书籍,如 Gene H. Golub and Charles F. Van Loan, Matrix Computations (4th edition), Baltimore: The Johns Hopkins University Press, 2013.