主要内容\(\newcommand{\Ima}{\rm Im }
\newcommand{\N}{\mathbb N}
\newcommand{\Z}{\mathbb Z}
\newcommand{\Q}{\mathbb Q}
\newcommand{\R}{\mathbb R}
\newcommand{\F}{\mathbb F}
\newcommand{\C}{\mathbb C}
\newcommand{\K}{\mathbb K}
\newcommand{\myunit}{1 cm}
\newcommand{\blue}[1]{{\color{blue}#1}}
\newcommand\iddots{\mathinner{
\kern1mu\raise1pt{.}
\kern2mu\raise4pt{.}
\kern2mu\raise7pt{\Rule{0pt}{7pt}{0pt}.}
\kern1mu
}}
\tikzset{
node style sp/.style={draw,circle,minimum size=\myunit},
node style ge/.style={circle,minimum size=\myunit},
arrow style mul/.style={draw,sloped,midway,fill=white},
arrow style plus/.style={midway,sloped,fill=white},
}
\newcommand{\lt}{<}
\newcommand{\gt}{>}
\newcommand{\amp}{&}
\definecolor{fillinmathshade}{gray}{0.9}
\newcommand{\fillinmath}[1]{\mathchoice{\colorbox{fillinmathshade}{$\displaystyle \phantom{\,#1\,}$}}{\colorbox{fillinmathshade}{$\textstyle \phantom{\,#1\,}$}}{\colorbox{fillinmathshade}{$\scriptstyle \phantom{\,#1\,}$}}{\colorbox{fillinmathshade}{$\scriptscriptstyle\phantom{\,#1\,}$}}}
\)
节 7.4 可对角化
上一节中我们证明了所有的复矩阵都相似于上三角矩阵。相对于普通上三角阵,对角矩阵是更为简单的一类矩阵。对角矩阵作为列向量空间上的线性变换,其变换规律也是较为明显的。本节中我们探讨满足哪些性质的矩阵可以相似于对角矩阵;如果个可以相似于对角阵,该如何寻找相应的过渡矩阵。
子节 7.4.1 矩阵的可对角化条件
设\(A\)是数域\(\mathbb{F}\)上\(n\)阶方阵。若存在\(\mathbb{F}\)上可逆阵\(P\), 使得\(P^{-1}AP\)为对角阵,则称\(A\)在数域\(\mathbb{F}\)上是 可对角化 的。
并不是所有的矩阵都可对角化。我们来看一些例子。
例 7.4.1.
证明矩阵
\begin{equation*}
A = \begin{pmatrix}
\lambda & 1 & & \\
&\lambda & \ddots & \\
& & \ddots &1\\
& & & \lambda
\end{pmatrix}_{n\times n}
\end{equation*}
不可对角化,其中\(n\ge 2\)。
例 7.4.2.
矩阵\(A = \begin{pmatrix}
0 & 1\\
-1 & 0
\end{pmatrix}\)在实数域上不可对角化,但在复数域上可对角化。
矩阵是否可对角化与数域有关,主要原因是除复数域外的数域\(\F\),\(\F[x]\)中多项式的根不一定仍落在\(\F\)中。此种情况下,我们只需放宽数域至复数域就可以了。我们重点关心的是矩阵在复数域上是否可对角化,所以在没有明确提及数域时,默认的数域是复数域。
矩阵可对角化和矩阵可逆一样,是矩阵的常用性质,有很多充分必要条件。下面是矩阵可对角化的第一个等价条件。
定理 7.4.3.
设\(A\in\mathbb{F}^{n\times n}\)。则\(A\)可对角化的充要条件是\(A\)有\(n\)个线性无关特征向量。
证明.
接下来我们从每一个特征值的角度来理解可对角化。
引理 7.4.4.
设\(A\)是\(n\)阶方阵,\(\lambda_0\)是\(A\)的特征值。设\(\lambda_0\)是\(A\)的特征多项式的\(n_0\)重根,\(\lambda_0\)的特征子空间\(V_{\lambda_0}\)的维数为\(s_0\),则\(s_0\leq n_0\)。
证明.
为方便记忆和叙述,我们引入下面的术语。
定义 7.4.5.
设\(\lambda_0\)是\(n\)阶方阵\(A\)的特征值。我们称\(\lambda_0\)作为\(\chi_A(\lambda)\)的根的重数\(n_0\)为\(\lambda_0\)的 代数重数 ;称\(\lambda_0\)的特征子空间\(V_{\lambda_0}\)的维数\(s_0\)为\(\lambda_0\)的 几何重数 。
定理 7.4.6.
设\(A\)是数域\(\mathbb{F}\)上\(n\)阶方阵, 则下列命题等价:
\(A\)在\(\mathbb{F}\)上可对角化;
\(A\)在\(\mathbb{F}\)上有\(n\)个线性无关的特征向量;
\(A\)的特征多项式的根全在\(\mathbb{F}\)上,且每个特征值的代数重数等于几何重数。
证明.
由于实数域的特殊重要性,所以有下面的推论。
推论 7.4.7.
设\(A\in \R^{n\times n}\)是\(n\)阶实方阵。若\(A\)的所有特征值都是实数,则下列命题等价:
\(A\)在\(\mathbb{C}\)上可对角化;
\(A\)在\(\mathbb{R}\)上可对角化;
\(A\)有\(n\)个线性无关的实特征向量。
推论 7.4.8.
设矩阵\(A\)在\(\mathbb{F}\)上有\(n\)个不同特征值, 则\(A\)在 \(\mathbb{F}\)上必可对角化。
作为这一小节的总结,结合
推论 7.3.16 我们给出判断
\(A\)是否可对角化和求可逆阵
\(P\)的一般流程:
计算\(A\)的特征多项式\(\chi_A(\lambda)\);
求\(\chi_A(\lambda)\)的所有根。若不是所有根都在\(\mathbb{F}\)上,则\(A\)在\(\mathbb{F}\)上不可对角化;
当所有特征值都在\(\mathbb{F}\)上时,若某特征值的代数重数不等于几何重数, 则\(A\)在\(\mathbb{F}\) 上不可对角化;
-
若所有特征值都在\(\mathbb{F}\)上, 且对每个特征值\(\lambda_i\),有\(s_i=n_i\),则\(A\)可对角化。
下面来求过渡矩阵\(P\)。对每一个\(i(i=1,\dots ,t)\),求\((\lambda_iE-A)X=0\)的基础解系,记为\(X_{i1},\dots ,X_{is_i}\)。则这些基础解系中的向量可以凑成\(\mathbb{F}^n\)的一个基\((X_{11},\dots,X_{1s_1},X_{21},\dots,X_{2s_2},\dots ,X_{t1},\dots,X_{ts_t})\)。 以这个基作为列向量组的矩阵\(P=(X_{11},\dots,X_{ts_t})\)是一个可逆矩阵,且\(P^{-1}AP\)为对角矩阵,对角元分别是\(A\)的相应特征值。
来看一个具体的例子。
例 7.4.9.
给定\(A\),说明\(A\)可对角化,并求过渡矩阵\(P\)。
无论在理论问题还是在实际问题中,将方阵\(A\)带入多项式获得 \(f(A)\) 是常见操作。当 \(f(x)\)次数较高时,直接按照多项式表达式和矩阵乘法公式计算\(f(A)\)会因为运算次数过多而几乎无法完成。当\(A\)可对角化时,利用相似变换,\(f(A)\)可以用相对少很多的运算量计算得出,见下面的例子。
例 7.4.10.
上题一样的\(A\),求
\(A^n\);
设\(f(x)\)是一个多项式,求\(f(A)\)。
子节 7.4.2 可对角化矩阵的几何理解
本小节中,我们从空间变换的角度来理解可对角化矩阵作为列向量空间上线性变换的几何意义。
定理 7.4.11.
设\(A\)是\(n\)阶方阵,\(\lambda_1,\ldots,\lambda_t \)是\(A\)的所有不同特征值,\(V_{\lambda_i}(i=1,\ldots,t)\)是特征值\(\lambda_i\)的特征子空间。则方阵\(A\)可对角化的充分必要条件是
\begin{equation}
\F^{n} = V_{\lambda_1}\oplus\cdots V_{\lambda_k}.\tag{7.4.1}
\end{equation}
我们尝试从几何角度理解可对角化的
\(A\)作为线性变换的作用效果:
(7.4.1)决定了空间的分解方式,进而对
\(\forall \alpha\in \F^n\),
\(\alpha\)可以唯一分解为
\begin{equation*}
\alpha= \sum_{i=1}^t \alpha_i,\ \alpha_i\in V_{\lambda_i}(i=1,\ldots,t)
\end{equation*}
于是
\begin{equation*}
A\alpha = \sum_{i=1}^t A\alpha_i = \sum_{i=1}^t \lambda_i \alpha_i,
\end{equation*}
即\(A\)的作用效果相当于对其特征子空间进行不同的伸缩(伸缩比例为相应特征值),然后再利用加法合成变换后的向量。