主要内容

高等代数: 多项式与线性代数

5.2 正交投影与最小二乘解

给定一个平面\(P\)和平面外一点\(p\),如何在\(P\)中找到与点\(p\)距离最近的点?这是一个常见的几何问题。几何的解决方法是过点\(p\)做垂直于平面\(P\)的直线,这条垂线与平面\(P\)的交点就是所求。本节中,我们把这个问题推广到一般的\(\R^n\)中,从代数的角度给出相应问题的解,并将之运用在线性方程组的求解问题上。

子节 5.2.1 正交

垂直在中学几何中一个重要且常用的概念,在线性代数中,垂直也常常被称为正交。两条相交直线垂直就是这两条直线的夹角是\(\frac{\pi}{2}\),注意到\(\cos\frac{\pi}{2}=0\),所以有下面的定义。

定义 5.2.1.

若两个\(\R^n\)中的向量\(\alpha\)\(\beta\)满足
\begin{equation*} \alpha\cdot\beta = 0, \end{equation*}
则称\(\alpha\)\(\beta\)正交,记做\(\alpha\perp\beta\)
按照定义,0向量与其它向量都正交。
来看几个具体的例子。

5.2.2.

  1. 向量\(\alpha=(x,y,0)^T \)\(\beta=(0,0,z)^T \)正交。从代数角度解释: \(\alpha\cdot \beta=0\);从几何角度解释:向量\(\alpha\)在xoy平面中,而\(\beta\)在z轴上,所以二者正交。
  2. 3维立体坐标系中的三个单位向量\(i=(1,0,0)^T\)\(j=(0,1,0)^T\)\(k = (0,0,1)^T\)两两正交。
  3. 向量\(\alpha=(1,2,3)^T \)与向量\(\beta=(x,y,z)^T \)正交的充分必要条件是:\(\beta\)落在平面\(x+2y+3z =0\)上。
利用内积的运算性质和正交性的概念,我们可以从代数上容易证明列向量版的“勾股定理”。
正交的概念可以从向量推广到线性子空间,类似于直线与直线、直线与平面的垂直。

定义 5.2.4.

\(\alpha\in \R^n\)\(V\)\(\R^n\)的一个线性子空间。若对任意的\(\beta\in V\),均有
\begin{equation*} \alpha\cdot\beta =0, \end{equation*}
则称向量\(\alpha\)和空间\(V\)正交,记作\(\alpha\perp V\)

定义 5.2.5.

\(V_1,V_2\)都是\(\R^n\)的子空间,若对\(\forall \alpha\in V_1,\beta\in V_2\),均有
\begin{equation*} \alpha\cdot\beta=0, \end{equation*}
则称\(V_1\)\(V_2\)正交,记做\(V_1\perp V_2 \)

5.2.6.

  1. 在3维立体坐标系中,取\(V_1\)是xoy平面,即
    \begin{equation*} V_1 =\{(x,y,0)^T|x,y\in\R\}, \end{equation*}
    \(V_2\)为z轴,即
    \begin{equation*} V_2 = \{(0,0,z)^T|z\in \R\}, \end{equation*}
    \(V_1\perp V_2 \)
  2. \(\R^3\)中,取\(V_1\)是向量\(\alpha=(1,2,3)^T \)生成的空间,\(V_2\)是线性方程:\(x+2y+3z=0\)的解空间,则\(V_1\perp V_2 \)
关于两个空间的正交性,我们有下面几个常用结论。

证明.

先证明前推后:根据生成子空间的定义,对任意的\(i\)\(j\)\(\alpha_i\in V_1\)\(\beta_j\in V_2\)。再根据正交的定义,可知\(\alpha_i\cdot \beta_j =0\)成立。
再证明后推前:对任意的\(\alpha\in V_1\),根据生成子空间的定义,存在\(c_1,\dots,c_s\)使得
\begin{equation*} \alpha = c_1\alpha_1+\cdots+c_s\alpha_s= \sum_{i=1}^s c_i\alpha_i. \end{equation*}
同理,对于任意的\(\beta\in V_2\),存在\(d_1,\dots,d_t\)使得
\begin{equation*} \beta = d_1\beta_1+\cdots +d_t\beta_t=\sum_{j=1}^td_j\beta_j. \end{equation*}
于是
\begin{align*} \alpha\cdot\beta\amp = \left(\sum_{i=1}^s c_i\alpha_i\right)\cdot\left(\sum_{j=1}^td_j\beta_j\right) \\ \amp = \sum_{i=1}^s\sum_{j=1}^t c_id_j(\alpha_i\cdot\beta_j ) \\ \amp = \sum_{i=1}^s\sum_{j=1}^t c_id_j\times 0 \\ \amp =0, \end{align*}
根据定义,\(V_1\perp V_2 \)成立。

证明.

\(A,B\)做列分块,记
\begin{equation*} A = (\alpha_1,\dots,\alpha_s),\quad B = (\beta_1,\dots,\beta_t), \end{equation*}
\begin{equation*} {\rm Im}A = \langle \alpha_1,\dots,\alpha_s\rangle,\quad {\rm Im} B = \langle \beta_1,\dots,\beta_t\rangle. \end{equation*}
注意到\((A^TB)_{i,j} = \alpha_i\cdot \beta_j\),结合 命题 5.2.7可知结论成立。

证明.

\(\forall \alpha \in V_1\cap V_2\),根据正交定义,可知\(\alpha\cdot \alpha =0\),根据标准内积的正定性可知\(\alpha =0\)(0向量),于是\(V_1\cap V_2 = 0\)(0空间)。
根据上面的结论,两个正交子空间的和都是直和。

证明.

\begin{equation*} W = \{\beta|\beta\perp V\}, \end{equation*}
下面证明\(W\)满足定理中的要求。
\(\dim V = r\),取\(V\)的一组基为\((\alpha_1,\dots,\alpha_r)\),记由这组基拼成的矩阵为\(A\)
对任意的\(\beta\)\(\beta\perp V\)当且仅当\(\beta\cdot \alpha_i =\alpha_i^T\beta= 0(i=1,\dots,r)\),也即\(A^T\beta=0\),也就是说
\begin{equation*} W = \{x\in \R^n |A^Tx = 0\}, \end{equation*}
\(W\)是线性方程组\(A^Tx=0\)的解空间。根据维数公式
\begin{equation*} \dim W = n-r(A^T) =n-r(A) = n-r. \end{equation*}
根据定义可知\(V\perp W\),结合 命题 5.2.9\(V+W\)是直和。再根据维数关系
\begin{equation*} \dim V +\dim W = r+n-r=n=\dim \R^n, \end{equation*}
所以\(V\oplus W = \R^n\)成立。
由于\(W\)包含了所有与\(V\)正交的向量,所以与\(V\)正交的子空间都是\(W\)的子空间。于是,满足\(eqn_orth_compl\)的子空间只能是唯一的。
定理 5.2.10中的\(W\)\(V\)正交补空间,记\(V\)的正交补空间为\(V^\perp\),即\(W=V^\perp\)。容易验证\(W=V^\perp\)当且仅当\(V=W^\perp\)
\(\R^3\)中,一个2维子空间\(V\)也就是一个过原点的平面,设这个平面的方程为
\begin{equation*} ax+by+cz = 0. \end{equation*}
\(\alpha = (a,b,c)^T\)\(\beta=(x,y,z)^T\)\(\beta\)可以认为是平面中的任意一点。此时平面方程等价于
\begin{equation*} \alpha\cdot \beta =0, \end{equation*}
即平面可以理解为与向量\(\alpha\)垂直的所有向量所构成的集合,此时\(\alpha\perp V\)
推广上述结论,对于一个齐次方程组\(Ax=0\),我们有下面的结论。

证明.

根据生成子空间的维数公式定理 4.4.14
\begin{equation*} \dim ({\rm Im} A^T) =r(A^T)=r(A). \end{equation*}
根据解空间维数公式定理 4.5.3
\begin{equation*} \dim {\rm Ker} A =n- r(A). \end{equation*}
所以,要证明结论成立,只需证明\({\rm Ker} A\perp {\rm Im}A^T \)
对矩阵\(A\)做行分块,记
\begin{equation*} A = \begin{pmatrix} \alpha_1^T\\ \vdots\\ \alpha_m^T \end{pmatrix}, \end{equation*}
于是
\begin{equation*} A^T = (\alpha_1,\dots,\alpha_m), \end{equation*}
其中每一个\(\alpha_i(i=1,\dots,m)\)都是\(n\)维列向量。
\(\forall \beta\in {\rm Ker}A\),按定义可知 \(A\beta=0\),即\(\alpha_i^T\beta =0(i=1,\dots,m)\),也就是\(\beta\perp \alpha_i(i=1,\dots,m)\),进而可知
\begin{equation*} \beta \perp \langle \alpha_1,\dots,\alpha_m\rangle = {\rm Im}A^T, \end{equation*}
\(\beta\)的任意性可知
\begin{equation*} {\rm Ker}A\perp {\rm Im} A^T. \end{equation*}
结合维数,结论成立。

子节 5.2.2 正交投影与最短距离

现在来回答本节开始时提出的问题。为了方便,我们先在\(\R^2\)中说明问题,如图 5.2.12 所示。
5.2.12. \(\R^2\)中的正交投影
\(\R^2\)中,直线\(L\)是一个1维子空间,\(L\)的正交补是与\(L\)垂直的直线\(L^\perp\)。根据几何知识可知,\(P_\alpha\)是在直线\(L\)上与点\(\alpha\)距离最近的点。从向量的角度,由于\(L\)\(L^\perp\)是直和,向量\(\alpha\)可以唯一的分解为\(L\)中向量与\(L^\perp\)中向量的和,\(P_\alpha\)恰好是分解式中\(L\)中的向量。从另一个角度,想象一束垂直于\(L\)的光线从上方照下,\(P_\alpha\)恰好是向量\(\alpha\)在直线\(L\)上留下的阴影,因此\(P_\alpha\)也被称为是\(\alpha\)\(L\)上的正交投影。一般的定义如下。

定义 5.2.13.

\(V\)\(\R^n\)的子空间,\(\alpha\in\R^n\)。若
\begin{equation*} \alpha = \alpha_1+\alpha_2, \end{equation*}
其中\(\alpha_1\in V\)\(\alpha_2\in V^{\perp}\),则称\(\alpha_1\)\(\alpha\)在空间\(V\)上的正交投影,记做\({\rm Proj}_V(\alpha)\)

证明.

\(\alpha-\beta\)可以分解为
\begin{equation*} \alpha-\beta = [\alpha-{\rm Proj}_V(\alpha)]+ [{\rm Proj}_V(\alpha)-\beta]\triangleq \gamma_1+\gamma_2, \end{equation*}
其中\(\gamma_1 =\alpha-{\rm Proj}_V(\alpha) \)\(\gamma_2 ={\rm Proj}_V(\alpha)-\beta \)
由正交投影的定义可知
\begin{equation*} \gamma_1( =\alpha-{\rm Proj}_V(\alpha))\perp V. \end{equation*}
由于\({\rm Proj}_V(\alpha)\in V\),且\(\beta\in V\),而\(V\)是子空间,所以\(\gamma_2\in V\)。于是
\begin{equation*} \gamma_1\perp \gamma_2. \end{equation*}
利用勾股定理(定理 5.2.3 )可知
\begin{align*} \| \alpha-\beta\|^2 \amp = \|\gamma_1+\gamma_2\|^2 \\ \amp=\|\gamma_1\|^2+\|\gamma_2\|^2 \\ \amp\ge \|\gamma_1\|^2 \\ \amp =\| \alpha-{\rm Proj}_V(\alpha)\|^2, \end{align*}
两端开方即可获得所求不等式。
由于有定理 5.2.14\({\rm Proj}_V(\alpha)\)也称为是\(\alpha\)\(V\)中的最佳逼近元

子节 5.2.3 无解方程组的最小二乘解

实际问题中提出的线性方程组\(Ax=\beta\)不一定都有解。此时,一种合理(同时也是常用)的处理方式是把问题转化为优化问题:寻找\(x\),使得
\begin{equation*} \|Ax -\beta\| \end{equation*}
达到最小,这样的解称为最小二乘解
\(Ax=\beta\)有解,则对于它的一个解\(x\)\(\|Ax -\beta\|=0\)达到了最小,所以线性方程组的解都是最小二乘解。
\(V = {\rm Im}A\)\(\tilde{\beta} ={\rm Proj}_V(\beta) \),可知\(\tilde{\beta}\in {\rm Im}A\),线性方程组\(Ax = \tilde{\beta}\)有解,它的解恰好都是原方程组的最小二乘解。
计算最小二乘解并不需要先求\(\beta\)向量的投影,事实上,关于最小二乘解的求解,我们有下面的结论。

证明.

如前,记\(\tilde{x}\)是线性方程组\(Ax = \tilde{\beta}\)的一个解,其中\(\tilde{\beta} ={\rm Proj}_V(\beta)\)\(V = {\rm Im}A\)。由于\(\tilde{\beta}\in {\rm Im}A\),根据命题 4.3.5, 线性方程组\(Ax = \tilde{\beta}\)有解,即\(\tilde{x}\)存在,且\(\tilde{x}\)是一个最小二乘解。
由于\(\tilde{x}\)\(Ax =\beta\)的最小二乘解,所以
\begin{equation*} A\tilde{x}-\beta\perp {\rm Im}A, \end{equation*}
根据 定理 5.2.11
\begin{equation*} A\tilde{x}-\beta\in {\rm Ker}A^T, \end{equation*}
\begin{equation*} A^T(A\tilde{x}-\beta)=0, \end{equation*}
整理后可知\(\tilde{x}\)(5.2.2)的解,即最小二乘解均满足此方程。
反之,记\(\hat{x}\)(5.2.2)的一个解,则
\begin{equation*} A\hat{x}-\beta\in {\rm Ker A^T} = ({\rm Im}A)^{perp}, \end{equation*}
\(A\hat{x} = \tilde{\beta} \),也就是说(5.2.2)的解都是最小二乘解。结论成立。
称型如(5.2.2)的方程组为一个正规方程。可知正规方程都有解,一般方程的最小二乘解都可以转化到其对应的正规方程后再来求解。

证明.

根据 命题 4.5.9
\begin{equation*} r(A^TA) =r(A) = n, \end{equation*}
\(A^TA\)可逆。结合定理 5.2.15,可知结论成立。

子节 5.2.4 MP广义逆与长度最小的最小二乘解*

当一个方阵\(A\)可逆时,对于任意一个以\(A\)为系数矩阵的线性方程组\(Ax=\beta\),我们可以借助其逆矩阵\(A^{-1}\)和矩阵乘法得出线性方程组的解\(x=A^{-1}\beta\)。当矩阵\(A\)不可逆时,我们可以借助“广义逆”来求解线性方程组。
广义逆有多种不同的定义,其中最为常用的一种是Morre-Penrose广义逆,简称MP广义逆。在给出MP广义逆的定义之前,我们先来梳理如下几个与之相关的结论。
当一个有解线性方程组的解不唯一时,其解集构成\(\R^n\)空间中一个“超平面”(线性子空间或其平移)。在所有解中,有一个解是长度最小的,这个解被称为是最小模解(长度也称为模)。
有了上述准备,我们可以给出MP广义逆的定义。

定义 5.2.20.

\(A\in \R^{m\times n}\)。若矩阵\(B\)满足:
  1. \(ABA=A\)
  2. \(BAB=B\)
  3. \((AB)^T = AB\)
  4. \((BA)^T = BA\)
则称\(B\)是矩阵\(A\)Moore-Penrose广义逆,简称为MP逆
节 8.5中,借助矩阵的奇异值分解,我们将证明:对任意矩阵\(A\),MP逆均存在且唯一。\(A\)矩阵的(唯一一个)MP逆常被记作\(A^{\dagger}\)
结合 命题 5.2.17, 命题 5.2.18, 命题 5.2.19,可知:对任意的实线性方程组\(Ax=\beta\)\(A^{\dagger}\beta\)是这个线性方程组最小二乘解中模长最小的解。
MP广义逆有一种利用到满秩分解的计算公式。

证明.

按定义验证MP逆需要满足的4个方程即可。

练习 5.2.5 练习

基础题.

1.

提高题.

2.

挑战题.

3.