主要内容\(\newcommand{\Ima}{\rm Im }
\newcommand{\N}{\mathbb N}
\newcommand{\Z}{\mathbb Z}
\newcommand{\Q}{\mathbb Q}
\newcommand{\R}{\mathbb R}
\newcommand{\F}{\mathbb F}
\newcommand{\C}{\mathbb C}
\newcommand{\K}{\mathbb K}
\newcommand{\myunit}{1 cm}
\newcommand{\blue}[1]{{\color{blue}#1}}
\newcommand\iddots{\mathinner{
\kern1mu\raise1pt{.}
\kern2mu\raise4pt{.}
\kern2mu\raise7pt{\Rule{0pt}{7pt}{0pt}.}
\kern1mu
}}
\tikzset{
node style sp/.style={draw,circle,minimum size=\myunit},
node style ge/.style={circle,minimum size=\myunit},
arrow style mul/.style={draw,sloped,midway,fill=white},
arrow style plus/.style={midway,sloped,fill=white},
}
\newcommand{\lt}{<}
\newcommand{\gt}{>}
\newcommand{\amp}{&}
\definecolor{fillinmathshade}{gray}{0.9}
\newcommand{\fillinmath}[1]{\mathchoice{\colorbox{fillinmathshade}{$\displaystyle \phantom{\,#1\,}$}}{\colorbox{fillinmathshade}{$\textstyle \phantom{\,#1\,}$}}{\colorbox{fillinmathshade}{$\scriptstyle \phantom{\,#1\,}$}}{\colorbox{fillinmathshade}{$\scriptscriptstyle\phantom{\,#1\,}$}}}
\)
节 5.2 正交投影与最小二乘解
给定一个平面\(P\)和平面外一点\(p\),如何在\(P\)中找到与点\(p\)距离最近的点?这是一个常见的几何问题。几何的解决方法是过点\(p\)做垂直于平面\(P\)的直线,这条垂线与平面\(P\)的交点就是所求。本节中,我们把这个问题推广到一般的\(\R^n\)中,从代数的角度给出相应问题的解,并将之运用在线性方程组的求解问题上。
子节 5.2.1 正交
垂直在中学几何中一个重要且常用的概念,在线性代数中,垂直也常常被称为正交。两条相交直线垂直就是这两条直线的夹角是\(\frac{\pi}{2}\),注意到\(\cos\frac{\pi}{2}=0\),所以有下面的定义。
定义 5.2.1.
若两个\(\R^n\)中的向量\(\alpha\)和\(\beta\)满足
\begin{equation*}
\alpha\cdot\beta = 0,
\end{equation*}
则称\(\alpha\)和\(\beta\)正交,记做\(\alpha\perp\beta\)。
按照定义,0向量与其它向量都正交。
来看几个具体的例子。
例 5.2.2.
向量\(\alpha=(x,y,0)^T \)与\(\beta=(0,0,z)^T \)正交。从代数角度解释: \(\alpha\cdot \beta=0\);从几何角度解释:向量\(\alpha\)在xoy平面中,而\(\beta\)在z轴上,所以二者正交。
3维立体坐标系中的三个单位向量\(i=(1,0,0)^T\)、\(j=(0,1,0)^T\)、\(k = (0,0,1)^T\)两两正交。
向量\(\alpha=(1,2,3)^T \)与向量\(\beta=(x,y,z)^T \)正交的充分必要条件是:\(\beta\)落在平面\(x+2y+3z =0\)上。
利用内积的运算性质和正交性的概念,我们可以从代数上容易证明列向量版的“勾股定理”。
定理 5.2.3.
对于\(\R^n\)中的两个向量\(\alpha\)和\(\beta\),若\(\alpha\perp\beta\),则
\begin{equation*}
\|\alpha+\beta\|=\|\alpha\|+\|\beta\|.
\end{equation*}
正交的概念可以从向量推广到线性子空间,类似于直线与直线、直线与平面的垂直。
定义 5.2.4.
设\(\alpha\in \R^n\),\(V\)是\(\R^n\)的一个线性子空间。若对任意的\(\beta\in V\),均有
\begin{equation*}
\alpha\cdot\beta =0,
\end{equation*}
则称向量\(\alpha\)和空间\(V\)正交,记作\(\alpha\perp V\)。
定义 5.2.5.
设\(V_1,V_2\)都是\(\R^n\)的子空间,若对\(\forall \alpha\in V_1,\beta\in V_2\),均有
\begin{equation*}
\alpha\cdot\beta=0,
\end{equation*}
则称\(V_1\)和\(V_2\)正交,记做\(V_1\perp V_2 \)。
例 5.2.6.
在3维立体坐标系中,取\(V_1\)是xoy平面,即
\begin{equation*}
V_1 =\{(x,y,0)^T|x,y\in\R\},
\end{equation*}
取\(V_2\)为z轴,即
\begin{equation*}
V_2 = \{(0,0,z)^T|z\in \R\},
\end{equation*}
则\(V_1\perp V_2 \)。
在\(\R^3\)中,取\(V_1\)是向量\(\alpha=(1,2,3)^T \)生成的空间,\(V_2\)是线性方程:\(x+2y+3z=0\)的解空间,则\(V_1\perp V_2 \)。
关于两个空间的正交性,我们有下面几个常用结论。
命题 5.2.7.
设\(V_1,V_2\)是\(\R^n\)的子空间,
\begin{equation*}
V_1 = \langle \alpha_1,\dots,\alpha_s\rangle,\quad V_2 = \langle \beta_1,\dots,\beta_t\rangle.
\end{equation*}
则 \(V_1\perp V_2 \) 当且仅当
\begin{equation*}
\alpha_i\cdot \beta_j =0, \forall i=1,\dots,s;j=1,\dots,t.
\end{equation*}
证明.
先证明前推后:根据生成子空间的定义,对任意的\(i\)和\(j\),\(\alpha_i\in V_1\),\(\beta_j\in V_2\)。再根据正交的定义,可知\(\alpha_i\cdot \beta_j =0\)成立。
再证明后推前:对任意的\(\alpha\in V_1\),根据生成子空间的定义,存在\(c_1,\dots,c_s\)使得
\begin{equation*}
\alpha = c_1\alpha_1+\cdots+c_s\alpha_s= \sum_{i=1}^s c_i\alpha_i.
\end{equation*}
同理,对于任意的\(\beta\in V_2\),存在\(d_1,\dots,d_t\)使得
\begin{equation*}
\beta = d_1\beta_1+\cdots +d_t\beta_t=\sum_{j=1}^td_j\beta_j.
\end{equation*}
于是
\begin{align*}
\alpha\cdot\beta\amp = \left(\sum_{i=1}^s c_i\alpha_i\right)\cdot\left(\sum_{j=1}^td_j\beta_j\right) \\
\amp = \sum_{i=1}^s\sum_{j=1}^t c_id_j(\alpha_i\cdot\beta_j ) \\
\amp = \sum_{i=1}^s\sum_{j=1}^t c_id_j\times 0 \\
\amp =0,
\end{align*}
根据定义,\(V_1\perp V_2 \)成立。
推论 5.2.8.
设\(A,B\)是两个行数相同的矩阵,
\begin{equation*}
V_1 = {\rm Im}A,\quad V_2={\rm Im} B.
\end{equation*}
则 \(V_1\perp V_2 \) 当且仅当\(A^TB=0\text{.}\)
证明.
对\(A,B\)做列分块,记
\begin{equation*}
A = (\alpha_1,\dots,\alpha_s),\quad B = (\beta_1,\dots,\beta_t),
\end{equation*}
则
\begin{equation*}
{\rm Im}A = \langle \alpha_1,\dots,\alpha_s\rangle,\quad {\rm Im} B = \langle \beta_1,\dots,\beta_t\rangle.
\end{equation*}
注意到
\((A^TB)_{i,j} = \alpha_i\cdot \beta_j\),结合
命题 5.2.7可知结论成立。
命题 5.2.9.
设\(V_1,V_2\)是\(\R^n\)的子空间。若\(V_1\perp V_2\),则\(V_1\cap V_2 = 0\)。
证明.
对\(\forall \alpha \in V_1\cap V_2\),根据正交定义,可知\(\alpha\cdot \alpha =0\),根据标准内积的正定性可知\(\alpha =0\)(0向量),于是\(V_1\cap V_2 = 0\)(0空间)。
根据上面的结论,两个正交子空间的和都是直和。
定理 5.2.10.
设\(V\)是\(\R^n\)的一个子空间,则存在唯一的一个\(\R^n\)子空间\(W\),使得
\begin{equation}
V\perp W,\quad V\oplus W = \R^n.\tag{5.2.1}
\end{equation}
证明.
取
\begin{equation*}
W = \{\beta|\beta\perp V\},
\end{equation*}
下面证明\(W\)满足定理中的要求。
记\(\dim V = r\),取\(V\)的一组基为\((\alpha_1,\dots,\alpha_r)\),记由这组基拼成的矩阵为\(A\)。
对任意的\(\beta\),\(\beta\perp V\)当且仅当\(\beta\cdot \alpha_i =\alpha_i^T\beta= 0(i=1,\dots,r)\),也即\(A^T\beta=0\),也就是说
\begin{equation*}
W = \{x\in \R^n |A^Tx = 0\},
\end{equation*}
即\(W\)是线性方程组\(A^Tx=0\)的解空间。根据维数公式
\begin{equation*}
\dim W = n-r(A^T) =n-r(A) = n-r.
\end{equation*}
根据定义可知
\(V\perp W\),结合
命题 5.2.9,
\(V+W\)是直和。再根据维数关系
\begin{equation*}
\dim V +\dim W = r+n-r=n=\dim \R^n,
\end{equation*}
所以\(V\oplus W = \R^n\)成立。
由于\(W\)包含了所有与\(V\)正交的向量,所以与\(V\)正交的子空间都是\(W\)的子空间。于是,满足\(eqn_orth_compl\)的子空间只能是唯一的。
称
定理 5.2.10中的
\(W\)是
\(V\)的
正交补空间,记
\(V\)的正交补空间为
\(V^\perp\),即
\(W=V^\perp\)。容易验证
\(W=V^\perp\)当且仅当
\(V=W^\perp\)。
在\(\R^3\)中,一个2维子空间\(V\)也就是一个过原点的平面,设这个平面的方程为
\begin{equation*}
ax+by+cz = 0.
\end{equation*}
记\(\alpha = (a,b,c)^T\),\(\beta=(x,y,z)^T\),\(\beta\)可以认为是平面中的任意一点。此时平面方程等价于
\begin{equation*}
\alpha\cdot \beta =0,
\end{equation*}
即平面可以理解为与向量\(\alpha\)垂直的所有向量所构成的集合,此时\(\alpha\perp V\)。
推广上述结论,对于一个齐次方程组\(Ax=0\),我们有下面的结论。
定理 5.2.11.
设\(A\)是一个列数为\(n\)的实矩阵。则在\(\R^n\)中,
\begin{equation*}
{\rm Ker} A=( {\rm Im}A^T)^\perp.
\end{equation*}
证明.
\begin{equation*}
\dim ({\rm Im} A^T) =r(A^T)=r(A).
\end{equation*}
\begin{equation*}
\dim {\rm Ker} A =n- r(A).
\end{equation*}
所以,要证明结论成立,只需证明\({\rm Ker} A\perp {\rm Im}A^T \)。
对矩阵\(A\)做行分块,记
\begin{equation*}
A = \begin{pmatrix} \alpha_1^T\\
\vdots\\ \alpha_m^T
\end{pmatrix},
\end{equation*}
于是
\begin{equation*}
A^T = (\alpha_1,\dots,\alpha_m),
\end{equation*}
其中每一个\(\alpha_i(i=1,\dots,m)\)都是\(n\)维列向量。
对\(\forall \beta\in {\rm Ker}A\),按定义可知 \(A\beta=0\),即\(\alpha_i^T\beta =0(i=1,\dots,m)\),也就是\(\beta\perp \alpha_i(i=1,\dots,m)\),进而可知
\begin{equation*}
\beta \perp \langle \alpha_1,\dots,\alpha_m\rangle = {\rm Im}A^T,
\end{equation*}
由\(\beta\)的任意性可知
\begin{equation*}
{\rm Ker}A\perp {\rm Im} A^T.
\end{equation*}
结合维数,结论成立。
子节 5.2.2 正交投影与最短距离
现在来回答本节开始时提出的问题。为了方便,我们先在
\(\R^2\)中说明问题,如
图 5.2.12 所示。
图 5.2.12. \(\R^2\)中的正交投影在\(\R^2\)中,直线\(L\)是一个1维子空间,\(L\)的正交补是与\(L\)垂直的直线\(L^\perp\)。根据几何知识可知,\(P_\alpha\)是在直线\(L\)上与点\(\alpha\)距离最近的点。从向量的角度,由于\(L\)与\(L^\perp\)是直和,向量\(\alpha\)可以唯一的分解为\(L\)中向量与\(L^\perp\)中向量的和,\(P_\alpha\)恰好是分解式中\(L\)中的向量。从另一个角度,想象一束垂直于\(L\)的光线从上方照下,\(P_\alpha\)恰好是向量\(\alpha\)在直线\(L\)上留下的阴影,因此\(P_\alpha\)也被称为是\(\alpha\)在\(L\)上的正交投影。一般的定义如下。
定义 5.2.13.
设\(V\)是\(\R^n\)的子空间,\(\alpha\in\R^n\)。若
\begin{equation*}
\alpha = \alpha_1+\alpha_2,
\end{equation*}
其中\(\alpha_1\in V\),\(\alpha_2\in V^{\perp}\),则称\(\alpha_1\)是\(\alpha\)在空间\(V\)上的正交投影,记做\({\rm Proj}_V(\alpha)\)。
定理 5.2.14.
设\(V\)是\(\R^n\)的子空间,\(\alpha\in\R^n\),则对任意的\(\beta\in V\),
\begin{equation*}
\|\alpha-{\rm Proj}_V(\alpha)\| \le \|\alpha-\beta\|.
\end{equation*}
证明.
\(\alpha-\beta\)可以分解为
\begin{equation*}
\alpha-\beta = [\alpha-{\rm Proj}_V(\alpha)]+ [{\rm Proj}_V(\alpha)-\beta]\triangleq \gamma_1+\gamma_2,
\end{equation*}
其中\(\gamma_1 =\alpha-{\rm Proj}_V(\alpha) \),\(\gamma_2 ={\rm Proj}_V(\alpha)-\beta \)。
由正交投影的定义可知
\begin{equation*}
\gamma_1( =\alpha-{\rm Proj}_V(\alpha))\perp V.
\end{equation*}
由于\({\rm Proj}_V(\alpha)\in V\),且\(\beta\in V\),而\(V\)是子空间,所以\(\gamma_2\in V\)。于是
\begin{equation*}
\gamma_1\perp \gamma_2.
\end{equation*}
\begin{align*}
\| \alpha-\beta\|^2 \amp = \|\gamma_1+\gamma_2\|^2 \\
\amp=\|\gamma_1\|^2+\|\gamma_2\|^2 \\
\amp\ge \|\gamma_1\|^2 \\
\amp =\| \alpha-{\rm Proj}_V(\alpha)\|^2,
\end{align*}
两端开方即可获得所求不等式。
由于有
定理 5.2.14,
\({\rm Proj}_V(\alpha)\)也称为是
\(\alpha\)在
\(V\)中的
最佳逼近元。
子节 5.2.3 无解方程组的最小二乘解
实际问题中提出的线性方程组\(Ax=\beta\)不一定都有解。此时,一种合理(同时也是常用)的处理方式是把问题转化为优化问题:寻找\(x\),使得
\begin{equation*}
\|Ax -\beta\|
\end{equation*}
达到最小,这样的解称为最小二乘解。
若\(Ax=\beta\)有解,则对于它的一个解\(x\),\(\|Ax -\beta\|=0\)达到了最小,所以线性方程组的解都是最小二乘解。
记\(V = {\rm Im}A\),\(\tilde{\beta} ={\rm Proj}_V(\beta) \),可知\(\tilde{\beta}\in {\rm Im}A\),线性方程组\(Ax = \tilde{\beta}\)有解,它的解恰好都是原方程组的最小二乘解。
计算最小二乘解并不需要先求\(\beta\)向量的投影,事实上,关于最小二乘解的求解,我们有下面的结论。
定理 5.2.15.
对任意的矩阵\(A\in \R^{m\times n}\),\(\beta\in \R^m\),线性方程组
\begin{equation}
A^TAx = A^T\beta\tag{5.2.2}
\end{equation}
均有解,且该方程组的所有解恰好就是
\begin{equation*}
Ax =\beta
\end{equation*}
的所有最小二乘解。
证明.
如前,记
\(\tilde{x}\)是线性方程组
\(Ax = \tilde{\beta}\)的一个解,其中
\(\tilde{\beta} ={\rm Proj}_V(\beta)\),
\(V = {\rm Im}A\)。由于
\(\tilde{\beta}\in {\rm Im}A\),根据
命题 4.3.5, 线性方程组
\(Ax = \tilde{\beta}\)有解,即
\(\tilde{x}\)存在,且
\(\tilde{x}\)是一个最小二乘解。
由于\(\tilde{x}\)是\(Ax =\beta\)的最小二乘解,所以
\begin{equation*}
A\tilde{x}-\beta\perp {\rm Im}A,
\end{equation*}
\begin{equation*}
A\tilde{x}-\beta\in {\rm Ker}A^T,
\end{equation*}
即
\begin{equation*}
A^T(A\tilde{x}-\beta)=0,
\end{equation*}
整理后可知
\(\tilde{x}\)是
(5.2.2)的解,即最小二乘解均满足此方程。
\begin{equation*}
A\hat{x}-\beta\in {\rm Ker A^T} = ({\rm Im}A)^{perp},
\end{equation*}
即
\(A\hat{x} = \tilde{\beta} \),也就是说
(5.2.2)的解都是最小二乘解。结论成立。
称型如
(5.2.2)的方程组为一个
正规方程。可知正规方程都有解,一般方程的最小二乘解都可以转化到其对应的正规方程后再来求解。
定理 5.2.16.
设\(A\in \R^{m\times n}\),\(\beta\in \R^m\)。若
\begin{equation*}
r(A) = n,
\end{equation*}
则\(Ax =\beta\)有唯一的最小二乘解
\begin{equation*}
x = (A^TA)^{-1}A^T\beta.
\end{equation*}
证明.
\begin{equation*}
r(A^TA) =r(A) = n,
\end{equation*}
子节 5.2.4 MP广义逆与长度最小的最小二乘解*
当一个方阵\(A\)可逆时,对于任意一个以\(A\)为系数矩阵的线性方程组\(Ax=\beta\),我们可以借助其逆矩阵\(A^{-1}\)和矩阵乘法得出线性方程组的解\(x=A^{-1}\beta\)。当矩阵\(A\)不可逆时,我们可以借助“广义逆”来求解线性方程组。
广义逆有多种不同的定义,其中最为常用的一种是Morre-Penrose广义逆,简称MP广义逆。在给出MP广义逆的定义之前,我们先来梳理如下几个与之相关的结论。
命题 5.2.17.
设\(A\in \R^{m\times n}\)。一个矩阵 \(B\)满足:“若\(Ax =\beta\)有解,则\(x=B\beta\)是\(Ax =\beta\)的一个解”的充分必要条件是
\begin{equation*}
ABA = A.
\end{equation*}
命题 5.2.18.
设\(A\in \R^{m\times n}\)。一个矩阵 \(B\)满足:“对任意的\(\beta\in \R^m\),\(x=B\beta\)是\(Ax =\beta\)的一个最小二乘解”的充分必要条件是
\begin{equation*}
ABA = A,\ (AB)^T = AB.
\end{equation*}
当一个有解线性方程组的解不唯一时,其解集构成\(\R^n\)空间中一个“超平面”(线性子空间或其平移)。在所有解中,有一个解是长度最小的,这个解被称为是最小模解(长度也称为模)。
命题 5.2.19.
设\(A\in \R^{m\times n}\)。一个矩阵\(B\)满足:“对任意的\(\beta\in {\rm Im}A\),\(x=B\beta\)是\(Ax =\beta\)的一个最小模解”的充分必要条件是
\begin{equation*}
ABA = A,\ (BA)^T = BA.
\end{equation*}
有了上述准备,我们可以给出MP广义逆的定义。
定义 5.2.20.
设\(A\in \R^{m\times n}\)。若矩阵\(B\)满足:
\(ABA=A\),
\(BAB=B\),
\((AB)^T = AB\),
\((BA)^T = BA\),
则称\(B\)是矩阵\(A\)的Moore-Penrose广义逆,简称为MP逆。
在
节 8.5中,借助矩阵的奇异值分解,我们将证明:对任意矩阵
\(A\),MP逆均存在且唯一。
\(A\)矩阵的(唯一一个)MP逆常被记作
\(A^{\dagger}\)。
MP广义逆有一种利用到满秩分解的计算公式。
定理 5.2.21.
设秩为\(r\)的矩阵\(A\in \R^{m\times n}\)满秩分解为\(A=BC\),其中\(B\in \R^{m\times r},\ C\in \R^{r\times n}\),则矩阵\(A\)的MP广义逆为
\begin{equation*}
A^{\dagger} = C^T(CC^T)^{-1}(B^TB)^{-1}B^T.
\end{equation*}
证明.
按定义验证MP逆需要满足的4个方程即可。