主要内容

高等代数: 多项式与线性代数

7.5 零化多项式

节 7.4中的知识告诉我们:并不是所有方阵都可以相似于对角矩阵。这样就有自然的问题:对于一个一般的方阵\(A\),与\(A\)相似的“最简单”矩阵会是什么矩阵?我们通常称这种在相似关系下“最简单”的矩阵为相似标准型
多项式是研究矩阵相似标准型的强有力工具。定理 7.3.3说明矩阵\(A\)的特征值\(\lambda_0\)都是特征多项式\(\chi_A(\lambda)\)的根,即\(\chi_A(\lambda_0)=0\)。若将\(A\)代入其特征多项式会如何呢?更一般地,本节中我们关心将矩阵\(A\)代入多项式\(f(x)\)后获得的\(f(A)\)\(A\)\(f\)之间关系。特别的,我们关心在何种情况下\(f(A)=0\)

子节 7.5.1 零化多项式与Cayley-Hamilton定理

定义 7.5.1.

\(A\in\mathbb{F}^{n\times n}\)\(0\neq f(\lambda)=a_s\lambda^s+\cdots +a_0\in\mathbb{F} [\lambda]\)。 若成立
\begin{equation*} f(A)=a_sA^s+\cdots +a_0{\color{blue}E}=0_{n\times n}, \end{equation*}
则称\(A\)适合多项式\(f(\lambda)\), 或称\(f(\lambda)\)\(A\)零化多项式
0多项式显然是任意方阵的零化多项式,所以在上述定义中我们排出了这种平凡情况。注意到\(\dim \F^{n\times n} = n^2 \),所以对任意一个\(n\)阶方阵\(A\)\(E_n,A,A^2,\ldots,A^{n^2}\)\(n^2+1\)个矩阵必定线性相关,于是存在不全为0的系数\(c_i(i=0,\ldots,n^2)\)使得
\begin{equation*} c_{n^2}A^{n^2}+\cdots +c_1A+c_0E_n =0_{n\times n}, \end{equation*}
即任意方阵都有非平凡的零化多项式。
我们通过下面的结论说明零化多项式与相似的关系。

证明.

\(A =PBP^{-1} \),其中\(P\)可逆。注意到
\begin{equation*} f(A) = f(PBP^{-1})=Pf(B)P^{-1}, \end{equation*}
所以\(f(A)=0\)当且仅当\(f(B)=0\),结论成立。
特征多项式 \(\chi_A(\lambda)\)是一个与矩阵\(A\)有明显联系的多项式,下面我们将证明特征多项式都是零化多项式,这个结论称为Cayley-Hamilton定理,它是矩阵论中的著名结论。
定理 7.3.20说明了任意复方阵相似于上三角矩阵,我们先针对这种简单矩阵来证明这个结论。

证明.

\(\varepsilon_1,\dots,\varepsilon_n \)\(\C^n\)上的标准单位向量。要证明\(\chi_B(B)=0\),只需证明对任意的\(j(j=1,\dots,n)\)\(\chi_B(B)\varepsilon_j=0\)
简单计算可知:
\begin{align*} B\varepsilon_1\amp = \lambda_1\varepsilon_1, \\ B\varepsilon_2 \amp = b_{12}\varepsilon_1+\lambda_2\varepsilon_2, \\ \vdots\quad \amp \vdots \quad \vdots\quad \vdots\quad \vdots\quad \vdots \\ B\varepsilon_j\amp= b_{1j}\varepsilon_1+ \cdots + b_{j-1,j}\varepsilon_{j-1} +\lambda_j \varepsilon_j \\ \vdots\quad \amp \vdots \quad \vdots\quad \vdots\quad \vdots\quad \vdots \\ B\varepsilon_n\amp= b_{1n}\varepsilon_1+ \cdots + b_{n-1,n}\varepsilon_{n-1} +\lambda_n \varepsilon_n. \end{align*}
容易知道
\begin{equation*} \chi_B(\lambda) = (\lambda-\lambda_1)\cdots(\lambda-\lambda_n). \end{equation*}
下面我们先用归纳法证明:对任意的\(j(j=1,\dots,n)\)
\begin{equation} (B-\lambda_1E)\cdots (B-\lambda_j E)\varepsilon_j = 0.\tag{7.5.1} \end{equation}
容易验证初始条件成立,下面根据归纳假设来证明一般的结论。
将矩阵\(B\)代入任意多项式后获得的矩阵彼此都可交换,于是可知
\begin{align*} \amp (B-\lambda_1E)\cdots (B-\lambda_j E)\varepsilon_j\\ = \amp\prod_{s=1}^{j-1}(B - \lambda_s E)\left(\sum_{t=1}^{j-1} b_{tj}\varepsilon_t \right)\\ =\amp \sum_{t=1}^{j-1} \left(\prod_{s=1}^{j-1}(B - \lambda_s E)b_{tj}\varepsilon_t \right)\\ = \amp \phantom{+} (B - \lambda_2E)\cdots (B -\lambda_j E)[(B - \lambda_1E) b_{1j} \varepsilon_1 ] \\ \amp {+} (B - \lambda_3E)\cdots (B -\lambda_j E)[(B - \lambda_1E)(B - \lambda_2E) b_{2j} \varepsilon_2 ] \\ \amp +\cdots \\ \amp + (B -\lambda_j E)[(B-\lambda_1E)\cdots (B-\lambda_{j-1}E) b_{j-1,j}\varepsilon_{j-1} ] \end{align*}
根据归纳假设,上述等式最后一个求和式中的所有项均等于0,所以 (7.5.1)成立。
进一步地,对任意的\(j(j=1,\dots,n)\)
\begin{align*} \amp (B-\lambda_1E)\cdots (B-\lambda_n E)\varepsilon_j \\ = \amp (B-\lambda_{j+1}E)\cdots (B-\lambda_n E)[(B-\lambda_1E)\cdots (B-\lambda_j E)\varepsilon_j] \\ = \amp 0. \end{align*}
下面给出Cayley-Hamilton定理及其证明。我们将给出两个完全不同的证明。第一个证明较为直观,但需要使用 定理 7.3.20,即需要使用复系数多项式标准分解式的良好性质。第二个证明不需要使用复数域的性质,可以在更一般的框架下讨论;同时,这个证明具有很好的启发性,与本章后续内容\(\lambda\)-矩阵也有关系,因此一并呈现。第二个证明的构造性相对较强,需要更加仔细地阅读和思考。

证明.

根据定理 7.3.20,存在可逆矩阵\(P\in \C^{n\times n}\),使得 \(B = P^{-1}AP\)是上三角矩阵。
根据 引理 7.5.3
\begin{equation*} \chi_A(A) = \chi_B(PBP^{-1}) = P\chi_B(B)P^{-1}=0. \end{equation*}

证明.

\(B(\lambda)\) 是矩阵\(\lambda E -A\)的伴随矩阵,则
\begin{equation} B(\lambda)(\lambda E-A)= \det(\lambda E-A) E= \chi_A(\lambda)E. \tag{7.5.2} \end{equation}
\(B(\lambda)\)的每一个元素都是矩阵\(\lambda E-A\)的某一个\(n-1\)阶代数余子式,所以这些元素都是次数不超过\(n-1\)的关于\(\lambda\)的一元多项式,从而\(B(\lambda)\) 可拆分为
\begin{equation*} B(\lambda)= \lambda^{n-1}B_{n-1}+\lambda^{n-2}B_{n-2}\cdots +B_0, \end{equation*}
这里\(B_i (i=0,1,\ldots,n-1)\)都是\(\mathbb{F}\)上的\(n\)阶方阵。代入\(B(\lambda)(\lambda E-A)\)得:
\begin{equation} \begin{array}{rcl} & & B(\lambda)(\lambda E-A) = (\lambda^{n-1}B_{n-1}+\lambda^{n-2}B_{n-2}\cdots +B_0)(\lambda E-A)\\ & = & \lambda^n B_{n-1} +\lambda^{n-1}(B{n-2}-B_{n-1}A)+\cdots+\lambda(B_0-B_{1}A) - B_0A. \end{array}\tag{7.5.3} \end{equation}
\(A\)的特征多项式\(\chi_A(\lambda)=\lambda^n+a_{n-1}\lambda^{n-1}+\cdots+a_0\),则
\begin{equation} \chi_A(\lambda)E=\lambda^n E+a_{n-1}\lambda^{n-1}E+\cdots+a_0E.\tag{7.5.4} \end{equation}
根据(7.5.2)(7.5.3)(7.5.4),利用两个多项式相等等价于其对应同次项系数相等,可得:
\begin{equation} \left\{\begin{array}{l} B_{n-1}=E,&\\ B_{n-2}-B_{n-1}A=a_{n-1}E,&\\ \qquad\quad\vdots&\\ B_0-B_1A=a_1E,&\\ -B_0A=a_0E& \end{array}\right.\tag{7.5.5} \end{equation}
\(A^n,A^{n-1},\cdots,A,E\)按顺序右乘(7.5.5)
\begin{equation} \left\{\begin{array}{l} B_{n-1}A^n=A^n,&\\ B_{n-2}A^{n-1}-B_{n-1}A^n=a_{n-1}A^{n-1},&\\ \qquad\quad\vdots&\\ B_0A-B_1A^2=a_1A,&\\ -B_0A=a_0E& \end{array}\right. \tag{7.5.6} \end{equation}
(7.5.6)的所有等式加到一起,左边为0,右端即为\(\chi_A(A)\),结论成立。

子节 7.5.2 极小多项式

对于一个给定的方阵\(A\), 除了特征多项式\(\chi_A(\lambda)\)是否还有其它零化多项式?相信多数同学会认为存在,事实也的确如此。接下来我们会给所有这些零化多项式一个刻画。我们从“最简单”的零化多项式开始。

定义 7.5.5.

\(A\)是数域\(\mathbb{F}\)上的\(n\)阶方阵,\(A\)的次数最小且首项系数为1的零化多项式称为\(A \)极小多项式
数量矩阵 \(kE\) 的极小多项式为一次多项式\(\lambda - k\); 特别地,单位矩阵的极小多项式是\(\lambda - 1\);零矩阵的极小多项式是\(\lambda\)。 反之,若矩阵 \(A\) 的极小多项式的是一次多项式,则 \(A\) 一定是数量矩阵。
接下来讨论极小多项式的唯一性。

证明.

  1. \(m(\lambda)\)是方阵\(A\)的一个极小多项式,\(f(\lambda)\)是方阵\(A\)的任意一个零化多项式。根据带余除法,存在\(q(\lambda),r(\lambda)\in\mathbb{F} [\lambda]\),使得
    \begin{equation*} f(\lambda)=m(\lambda)q(\lambda)+r(\lambda), \end{equation*}
    其中\(\deg r(\lambda)<\deg m(\lambda)\)。将\(\lambda\)\(A\)代入得
    \begin{equation*} r(A)=f(A)-m(A)q(A)=0. \end{equation*}
    注意到\(m(\lambda)\)是方阵\(A\)的一个极小多项式且\(\deg r(\lambda)<\deg m(\lambda)\),所以\(r(\lambda)=0\),由此推出\(m(\lambda)|f(\lambda)\)
  2. \(m_1(\lambda),m_2(\lambda)\)都是\(A\)的极小多项式, 由项 1\(m_1(\lambda)|m_2(\lambda)\)\(m_2(\lambda)|m_1(\lambda)\)。故存在\(0\neq c\in\mathbb{F}\)使得\(m_1(\lambda)=cm_2(\lambda)\)。又\(m_1(\lambda),m_2(\lambda)\)的首项系数均为1,所以 \(c=1\),从而\(m_1(\lambda)=m_2(\lambda)\)
由于方阵\(A\)的极小多项式是唯一的,可以记这个唯一的极小多项式为\(m_A(\lambda)\)。可知
\begin{equation*} \{m_A(\lambda)f(\lambda)\ | \ f(\lambda)\in \F[\lambda] \} \end{equation*}
\(A\)的所有零化多项式构成的集合。
上述定理还有如下一个直接推论。
下面我们来进一步讨论极小多项式应具有的性质。

证明.

根据带余除法,存在\(q(\lambda)\in\mathbb{F}[\lambda],r\in\mathbb{F}\),使得
\begin{equation*} m_A(\lambda)=(\lambda-\lambda_0)q(\lambda)+r, \end{equation*}
\begin{equation*} m_A(A)=(A-\lambda_0 E_n)q(A)+rE_n, \end{equation*}
\(rE_n=(\lambda_0 E_n-A)q(A)\)。两边同时取行列式,得
\begin{equation*} r^n=\det(\lambda_0 E_n-A)\det\left(q(A)\right)=0. \end{equation*}
\(r=0\)。因此\((\lambda-\lambda_0)|m_A(\lambda)\)

证明.

引理 7.5.8得:\(\chi_A(\lambda)\)的根是\(m_A(\lambda)\)的根;反之,由推论 7.5.7\(m_A(\lambda)|\chi (\lambda)\),故\(m_A(\lambda)\)的根也都是\(\chi_A(\lambda)\)的根。因此在不计重数的前提下,\(m_A(\lambda)\)\(\chi_A(\lambda)\)有完全相同的根。
来看几个例子。

7.5.10.

\(n\)阶方阵
\begin{equation*} A=\begin{pmatrix}a&0&0&\cdots&0&0\\ 1&a&0&\cdots&0&0\\ 0&1&a&\cdots&0&0\\ \cdots&\cdots&\cdots&\cdots&\cdots&\cdots\\ 0&0&0&\cdots&a&0\\ 0&0&0&\cdots&1&a\end{pmatrix} \end{equation*}
的 极小多项式。
解答.

7.5.11.

\(A,B\)\(n\)阶矩阵,若\((m_{A}(\lambda),m_{B}(\lambda))=1\),证明:\(\chi_{A}(B)\)是可逆矩阵,这里\(\chi_{A}(\lambda)\)\(A\)的特征多项式。

7.5.12.

\(A=\begin{pmatrix}1&0&0&0\\ -1&-1&-1&0\\ 1&1&1&0\\ 2&2&2&0\end{pmatrix}\),求\(A^{2025}\)
注意到特征值、特征多项式都是相似不变量,下面说明极小多项式也是相似不变量。

证明.

根据已知条件,存在可逆矩阵\(P,Q\),使得 \(B=P^{-1}AP\)。则
\begin{equation*} m_A(B)=m(P^{-1}AP)=P^{-1}m_A(A)P=0, \end{equation*}
\(m_A(\lambda)\)\(B\)的一个零化多项式。由项 1得:\(m_B(\lambda)|m_A(\lambda)\)。同理\(m_A(\lambda)|m_B(\lambda)\),因此\(m_A(\lambda)=m_B(\lambda)\)
需要注意的是上述定理的逆命题并不成立,即存在\(A\not\sim B\),且\(m_{A}(\lambda)=m_{B}(\lambda)\)。请大家先思考这个问题并尝试举出具体的例子。
本小节的最后,我们来看一下分块对角阵的极小多项式与对角块之间的关系。

证明.

由于
\begin{equation*} m_A (A)=\begin{pmatrix} m_A(A_1)&0\\ 0&m_A(A_2) \end{pmatrix}, \end{equation*}
\(m_A(A)=0\),所以\(m_A(A_i)=0(i=1,2)\)。根据项 1得:
\begin{equation*} m_{A_i}(\lambda)|m_A(\lambda)(i=1,2). \end{equation*}
另一方面,设\(g(\lambda)\in\mathbb{F}[\lambda]\)满足\(m_{A_i}(\lambda)|g(\lambda)(i=1,2)\),则\(g(A_i)=0\)。于是
\begin{equation*} g(A)=\begin{pmatrix} g(A_1)&0\\ 0&g(A_2) \end{pmatrix}=0, \end{equation*}
由此可知\(m_A(\lambda)|g(\lambda)\)。从而
\begin{equation*} m_A(\lambda)=[m_{A_1}(\lambda),\ m_{A_2}(\lambda)]. \end{equation*}
上述定理可以推广到多个对角块的情况。注意上述结论对分块上三角矩阵不一定成立。

7.5.15.

\(A=\begin{pmatrix}\lambda_{1}E_{n_1}&0&\cdots&0\\ 0&\lambda_{2}E_{n_2}&\cdots&0\\ \cdots&\cdots&\cdots&\cdots\\ 0&0&\cdots&\lambda_{t}E_{n_t}\end{pmatrix}\),其中\(\lambda_{1},\lambda_{2},\cdots ,\lambda_{t}\)是数域\(\F\)上互异的常数。求\(A\)的极小多项式\(m_{A}(\lambda)\)
利用极小多项式,我们可以获得可对角化的另一个等价条件。

子节 7.5.3 线性变换的零化多项式和极小多项式

下面我们把矩阵语言翻译成为线性变换。

定义 7.5.17.

\(\varphi\)是数域\(\mathbb{F}\)\(n\)维空间\(V\)的线性变换,若存在
\begin{equation*} 0\neq f(\lambda)=a_s\lambda^s+a_{s-1}\lambda^{s-1}+\cdots +a_0\in\mathbb{F} [\lambda], \end{equation*}
使得
\begin{equation*} f(\varphi)=a_s\varphi^s+a_{s-1}\varphi^{s-1}+\cdots +a_0 {\rm id}_V=0, \end{equation*}
则称\(f(\lambda)\)\(\varphi\)零化多项式
\(\varphi\)的次数最低的且首项系数为\(1\)的零化多项式称为\(\varphi\)极小多项式,记作\(m_{\varphi}(\lambda)\)

练习 7.5.4 练习

基础题.

1.
\(A\in \F^{n\times n}\),记
\begin{equation*} T(A) = \{f(x)|f(x)\in \F[x],\ f(A)=0\}. \end{equation*}
证明:\(T(A)\)关于多项式组合封闭,即对\(\forall f(x),g(x)\in T(A)\)\(\forall u(x),v(x)\in \F[x]\),都有
\begin{equation*} u(x)f(x)+v(x)g(x)\in T(A). \end{equation*}
2.
举例说明特征值相同的矩阵未必相似,极小多项式相同的矩阵未必相似。
3.
\(A= \begin{pmatrix} 2&1&1\\1&2&1\\1&1&2 \end{pmatrix}\),求\(A\)的极小多项式\(m_A(\lambda)\),并判断\(A\)是否可对角化。
4.
\(\alpha , \beta\in\mathbb{F}^n\),且\(\alpha^T \beta=1\)。令\(A=E_n- \alpha \beta^T\),求\(A\)的极小多项式\(m_A(\lambda)\),并判断\(A\)是否可对角化。

提高题.

5.
\(n\)阶可逆矩阵\(A\)的极小多项式\(m_A(\lambda)=\lambda^m+a_1 \lambda^{m-1}+\cdots +a_m\),求\(A^{-1}\)的极小多项式\(m_{A^{-1}}(\lambda)\)
6.
\(A\)是数域\(\mathbb{F}\)\(n\)阶矩阵,证明:\(m_A(\lambda)=m_{A^T}(\lambda)\)
7.
\(A={{\rm {diag}}}\{A_1,\dots,A_s\}\)是数域\(\mathbb{F}\)上的\(n\)阶方阵,其中\(A_i(i=1,\dots,s)\)\(n_i\)阶方阵。证明\(A\)可对角化的充分必要条件是每个\(A_i(i=1,\dots,s)\)都可对角化。
8.
\(A,B\)都是\(n\)阶可对角化矩阵,并且\(AB=BA\),证明:\(A,B\)可同时对角化,即存在可逆矩阵\(P\)使得\(P^{-1}AP\)\(P^{-1}BP\)都是对角矩阵。
9.
\(S\)是无限个可对角化的\(n\)阶方阵组成的集合,其元素满足矩阵乘法交换律。证明:存在\(n\)阶可逆矩阵\(P\),使得\(\forall X\in S\)\(P^{-1}XP\)为对角矩阵。
10.
\(A,B\)\(n\)阶矩阵,若\((m_A(\lambda),m_B(\lambda))=1\),证明:\(f_A(B)\)是可逆矩阵,这里\(f_A(\lambda)\)\(A\)的特征多项式。
11.
\(A,B\)分别是数域\(\mathbb{F}\)上的\(n\)阶、\(m\)阶矩阵,其极小多项式分别为\(m_A(\lambda),m_B(\lambda)\),若\((m_A(\lambda),m_B(\lambda))=1\),证明:矩阵方程\(AX=XB\)只有零解。

挑战题.

12.