主要内容

高等代数: 多项式与线性代数

7.4 可对角化

上一节中我们证明了所有的复矩阵都相似于上三角矩阵。相对于普通上三角阵,对角矩阵是更为简单的一类矩阵。对角矩阵作为列向量空间上的线性变换,其变换规律也是较为明显的。本节中我们探讨满足哪些性质的矩阵可以相似于对角矩阵;如果个可以相似于对角阵,该如何寻找相应的过渡矩阵。

子节 7.4.1 矩阵的可对角化条件

\(A\)是数域\(\mathbb{F}\)\(n\)阶方阵。若存在\(\mathbb{F}\)上可逆阵\(P\), 使得\(P^{-1}AP\)为对角阵,则称\(A\)在数域\(\mathbb{F}\)上是 可对角化 的。
并不是所有的矩阵都可对角化。我们来看一些例子。

7.4.1.

证明矩阵
\begin{equation*} A = \begin{pmatrix} \lambda & 1 & & \\ &\lambda & \ddots & \\ & & \ddots &1\\ & & & \lambda \end{pmatrix}_{n\times n} \end{equation*}
不可对角化,其中\(n\ge 2\)
解答.

7.4.2.

矩阵\(A = \begin{pmatrix} 0 & 1\\ -1 & 0 \end{pmatrix}\)在实数域上不可对角化,但在复数域上可对角化。
解答.
矩阵是否可对角化与数域有关,主要原因是除复数域外的数域\(\F\)\(\F[x]\)中多项式的根不一定仍落在\(\F\)中。此种情况下,我们只需放宽数域至复数域就可以了。我们重点关心的是矩阵在复数域上是否可对角化,所以在没有明确提及数域时,默认的数域是复数域。
矩阵可对角化和矩阵可逆一样,是矩阵的常用性质,有很多充分必要条件。下面是矩阵可对角化的第一个等价条件。

证明.

接下来我们从每一个特征值的角度来理解可对角化。

证明.

为方便记忆和叙述,我们引入下面的术语。

定义 7.4.5.

\(\lambda_0\)\(n\)阶方阵\(A\)的特征值。我们称\(\lambda_0\)作为\(\chi_A(\lambda)\)的根的重数\(n_0\)\(\lambda_0\)代数重数 ;称\(\lambda_0\)的特征子空间\(V_{\lambda_0}\)的维数\(s_0\)\(\lambda_0\)几何重数

证明.

由于实数域的特殊重要性,所以有下面的推论。
作为这一小节的总结,结合 推论 7.3.16 我们给出判断\(A\)是否可对角化和求可逆阵\(P\)的一般流程:
  1. 计算\(A\)的特征多项式\(\chi_A(\lambda)\)
  2. \(\chi_A(\lambda)\)的所有根。若不是所有根都在\(\mathbb{F}\)上,则\(A\)\(\mathbb{F}\)上不可对角化;
  3. 当所有特征值都在\(\mathbb{F}\)上时,若某特征值的代数重数不等于几何重数, 则\(A\)\(\mathbb{F}\) 上不可对角化;
  4. 若所有特征值都在\(\mathbb{F}\)上, 且对每个特征值\(\lambda_i\),有\(s_i=n_i\),则\(A\)可对角化。
    下面来求过渡矩阵\(P\)。对每一个\(i(i=1,\dots ,t)\),求\((\lambda_iE-A)X=0\)的基础解系,记为\(X_{i1},\dots ,X_{is_i}\)。则这些基础解系中的向量可以凑成\(\mathbb{F}^n\)的一个基\((X_{11},\dots,X_{1s_1},X_{21},\dots,X_{2s_2},\dots ,X_{t1},\dots,X_{ts_t})\)。 以这个基作为列向量组的矩阵\(P=(X_{11},\dots,X_{ts_t})\)是一个可逆矩阵,且\(P^{-1}AP\)为对角矩阵,对角元分别是\(A\)的相应特征值。
来看一个具体的例子。

7.4.9.

给定\(A\),说明\(A\)可对角化,并求过渡矩阵\(P\)
无论在理论问题还是在实际问题中,将方阵\(A\)带入多项式获得 \(f(A)\) 是常见操作。当 \(f(x)\)次数较高时,直接按照多项式表达式和矩阵乘法公式计算\(f(A)\)会因为运算次数过多而几乎无法完成。当\(A\)可对角化时,利用相似变换,\(f(A)\)可以用相对少很多的运算量计算得出,见下面的例子。

7.4.10.

上题一样的\(A\),求
  1. \(A^n\)
  2. \(f(x)\)是一个多项式,求\(f(A)\)

子节 7.4.2 可对角化矩阵的几何理解

本小节中,我们从空间变换的角度来理解可对角化矩阵作为列向量空间上线性变换的几何意义。
我们尝试从几何角度理解可对角化的\(A\)作为线性变换的作用效果:(7.4.1)决定了空间的分解方式,进而对\(\forall \alpha\in \F^n\)\(\alpha\)可以唯一分解为
\begin{equation*} \alpha= \sum_{i=1}^t \alpha_i,\ \alpha_i\in V_{\lambda_i}(i=1,\ldots,t) \end{equation*}
于是
\begin{equation*} A\alpha = \sum_{i=1}^t A\alpha_i = \sum_{i=1}^t \lambda_i \alpha_i, \end{equation*}
\(A\)的作用效果相当于对其特征子空间进行不同的伸缩(伸缩比例为相应特征值),然后再利用加法合成变换后的向量。

子节 7.4.3 线性变换的可对角化

接下来,我们把矩阵语言叙述的定义和结论翻译为变换语言。

定义 7.4.12.

\(\varphi\)是数域\(\mathbb{F}\)\(n\)维空间\(V\)的线性变换。若存在\(V\) 的一个基,使得\(\varphi\)在此基下的矩阵是对角矩阵,则称\(\varphi\)可对角化的。
此时,对角元素恰为\(\varphi\)的特征值,而相应的基向量恰为该特征值的特征向量。

定义 7.4.13.

\(\varphi\)是数域\(\mathbb{F}\)\(n\)维空间\(V\)的线性变换,\(\lambda_0\)\(\varphi\)的一个特征值。\(\lambda_0\)作为特征多项式\(\chi_{\varphi}(\lambda)\)的根的重数\(n_0\)称为\(\lambda_0\)代数重数\(\lambda_0\)的特征子空间的维数称为\(\lambda_0\)几何重数