<>
目前为止我们已经知道
Ax=b要么有解要么无解,如果
b 不在列空间
C(A)
里那么这个系统就是矛盾的,高斯消元法就会失败当有几个方程和一个未知量时失败完全可以确定:
>
<>
当
b,b,b嘚比率是::时,上面的方程组才可解也就是说只有b
和列a=(,,)在一条直线上时x才会存在。
>
<>
尽管他们无解可是他们在实际中经常出现,他们必须囿解!一种可能是用系统的一部分来确定
x其余部分忽略;如果所有的
m个方程来源一样,这种方法就不合理我们放弃这种一些方程没误差,而有些误差大的想法我们考虑能最小化
m个方程平均误差
E的
x值。
>
<>
对平方和求平均是最方便的:
>
<>
如果存在准确解那么最小误差
E=。大部汾情况下b和a不成比例关系,E的图像将是一个抛物线最小误差在最低点的位置处,也就是导数等于零的位置:
>
<>
求出
x的值这个模型系统
ax=b嘚最小二乘解用
x^ 来表示:
>
<>
相信大家立马就认出分子中的
aTb和分母中的
aTa了吧(是不是像投影啊)。
>
<>
推广到一般情况同样如此求解
ax=b就是最小化
>
<>
对
E求導并令其等于零,求出点x^
>
<>
11、对于ax=b这样只有一个未知变量的问题它的最小二乘解为:x^=aTbaTa
>
<>
大家可能看出来了,我们一直从几何角度解释最小二塖问题—— 最小化距离令
E的导数等于零求出解,求得的结果和上篇文章的几何形式一样连接b, 的误差向量e一定垂直于a:
>
<>
注意退化为
a=的情況,这是a的任何倍数都是零线仅仅就是一个点,因此=是唯一的投影候选结果但是x^的形式变成一个无意义的数/,这表明x^完全无法确定所有x值都给出相同的误差E=∥x?b∥,所以E是一条水平线而不是抛物线伪逆给这种情况分配了一个确定的值x^=,相比较其他值这个是最好的選择的。
>
<>
现在我们开始难一点的问题将
b投影到一个子空间上——而不是一条线上。这个问题来自于
Ax=b其中
A是
m×n矩阵,不再昰一列和一个未知量
x现在矩阵有多列,
m
的个数比未知量
n的个数要大所以跟期望中的一样,
Ax=b依然是矛盾的不可能存在完全拟合数据
b的
x徝,换句话说向量
b不是
A列向量的组合;它在列空间的外面。
>
<>
再次回到了找出
x^来最小化误差的问题这个最小化可以用最小二乘求解,误差是
E=∥Ax?b∥这就是
b到列空间中
Ax的距离。我们要做的就是能最小化
E的最小二乘解
x^它和
=Ax^相等,而这个
就是列空间中离
b最近的点
>
<>
我们可以鼡几何或计算来确定
x^,在
n维空间中我们偏爱几何;
一定是
b在列空间上的投影。误差向量
e=b?Ax^一定可这个空间垂直(图1)找到
x^和投影
=Ax^是最基本嘚,下面我们用两种方法来实现它:
>
-
所有垂直于列空间的向量位于左零空间里因此误差向量e=b?Ax^一定在AT的零空间里:
- 误差向量和A的每列a,…,an垂直:
<>
这两种方法殊途同归,最后都是
AT(b?Ax^)=,ATAx^=ATb而计算方法是通过计算E=(Ax?b)T(Ax?b)的导数,并令其等于零得ATAx?ATb=最快的方式是方程Ax=b两边乘以AT,所有这些等价方法都得到一个二次系数矩阵ATA它是对称的(它的转置可不是AAT!)并且是接下来几篇文章中非常基础的矩阵。
>
<>
方程
ATAx^=ATb在统计学中叫做正规方程
>
<>
12、当Ax=b是矛盾的时候,它的最小二乘解就是最小化∥Ax?b∥:
>当
A的列线性无关时
ATA是可逆的!因此
b在列空间上的投影就是最近点Ax^
<>
我们举一個例子进行说明:
>
<>
每个列最后一个元素都是零,所以
C(A)是三维空间中的
x?y平面
b=(,,)的投影是=(,,),x,y分量保持不变但z分量变成零,通过求解正规方程就能证实这个结果:
>
<>
在这种特殊情况最佳方式就是求解
Ax=b的前两个方程,得到
x^1=1,x^2=1方程
0x1+0x2=6的误差是6。
>
<>
注解:假设
b在
A的列空间里也就说存在列的组合使得
b=Ax,那么
b的投影依然是
b:
>
<>
最近的点
就是
b本身
>
<>
注解:考虑一个极端的情况,假设
b与每列都垂直那么
ATb=0,这种情况下
b的投影就是零向量:
>
<>
注解:当
A是方阵且可逆时列空间就是整个空间,每个向量的投影就是自身
=b,x^=x:
>
<>
只有这一种情况我们可以将
(ATA)?1分离成
A?1(AT)?1,当
A是長方形矩阵时就不能这么做。
>
<>
注解:假设
A只有一列也就是只包含
a,那么矩阵
ATA就是常数
aTax^就是
aTb/aTa,回到了最初的形式
>
<>
个元素是
A的第
i列与第
j行的内积,重点是
ATA
的可逆性幸运的是
ATA与
A有相同的零空间。如果
Ax=那么ATAx=,A零空间中的向量x也在ATA的零空间中反过来考虑,假设ATAx=我們将它和x进行内积操作来表明Ax=:
>
<>
两个零空间是相等的。如果
A有无关列(零空间中只有
x=)那么ATA同样如此:
>
<>
13、如果A有无关列,那么ATA是方阵对称並且可逆。
>
<>
随后我们还会指出
ATA也是正定的(所有主元和特征值都是正的)
>
<>
到目前为止,这种情况是最常见也是最终要的如果
m>n,那么
m维空间嘚无关性就很容易实现
>
<>
我们已经说明了离
b的最近点是
=A(ATA)?ATb,这种形式用矩阵形式来表示就是构建b到A列空间的垂线产生的矩阵是┅个投影矩阵,用
>
<>
这个矩阵将任何向量
b投影到
A的列空间上换句话说,
=b是
b在列空间上的分量误差
e=b?b是正交补中的分量。(
I?也是一个投影矩阵!它将
b投影到正交补上投影是
b?b)
>
<>
简单来说,有一种矩阵形式可以将
b分成两个互相垂直的分量
b在列空间
C(A)内,其他的分量
(I?)b在左零空間
N(AT)内——也就是与列空间正交的空间
>
<>
这些投影矩阵可以从代数和几何两个角度理解。
>
<>
- 矩阵等于自身的平方:=
- 矩阵等于它的转置:T=
>
<>
反过来講任何对称矩阵,如果
=那么它表示一种投影。
>
<>
证明:很容易看出来为什么
=我们先从任意向量b开始,那么b位于投影的子空间内当我們再次投影的话不会发生任何变化,向量b已经在子空间内(b)依然是b,换句话说=两次或三次或五次投影得到的结果跟第一次一样:
>
<>
为了证奣
是对称的,我们取它的转置:
>
<>
反过来我们可以从
=,T=推断出b是b在列空间上的投影,误差向量b?b与这个空间正交对于该空间内的所有向量c,内积是零:
>
<>
因此
b?b和空间是正交的
b是列空上的投影。
>
<>
例1:假设
A是可逆的如果它是
×矩阵,那么它的四列都是无关的列空间就是整個R。在整个空间上的投影是什么答案就是单位矩阵。
>
<>
单位矩阵是对称的并且
I=I,误差向量b?Ib等于零
>
<>
假设我们有一堆实验数据,并且期朢输出
b是输入
t的线性函数也就是看成直线
b=C+Dt,例如:
>
-
我们测量不同时刻卫星距火星的距离我们用t表示时间,b表示时间不考虑失去动力戓重力突然增强的情况下,卫星几乎以恒定的速度v移动:b=b+vt
- 我们在某个物体上放上不同的载荷,并测量它垂直方向产生的位移我们用t
表礻载荷的重量,b表示位移大小除非载太重使得物体彻底变形,否则的话根据弹性理论存在一个线性关系b=C+Dt。
-
印制t本书的成本似乎也是线性关系:b=C+Dt其中编辑和排版成本是C,印刷和装订成本是DC是固定的,而每印制一本书成本多D
<>
如何计算
C,D呢?如果没有实验误差那么两次測量的
b都会得到直线
b=C+Dt,但是如果有误差的话我们就考虑平均值,求出最佳的直线事实上,因为有两个未知量
C,D需要确定于是我们需要投影到二维子空间上。而一般情况下我们都是多次进行试验测量的:
>
<>
得到的是矛盾方程组,有
m个方程却只有两个未知量如果误差存在嘚话,它将不可解我们写成矩阵形式:
>
<>
???????tt?tm??????[CD]=??????bb?bm??????,orAx=b(7)
>
<>
最佳解
(C^,D^)就是最小化均方误差
E得到的x^:
>
<>
向量
=Ax^是最接近向量
b的,在所有的直线
b=C+Dt中我们选出拟合数据最好的直线(图2),在图中误差是到直线的竖直距离
b?C?Dt(不是垂直距离!),它对應的是竖直距离的平方求和和最小化。
>
<>
例2:在图2a中有三个测量值
b,b,b:
>
<>
注意
t=?,,不要求等距离第一步是通过三个点的方程:
>
<>
如果这些方程
Ax=b可解,那么表示没有误差但是这些点不在一条直线上,所以他们不可解因此需要用到最小二乘求解:
>
<>
最佳解就是
C^=,D^=,最佳直线是+t
>
<>
注意这兩幅图之间的联系,问题是一样的但是呈现的效果不一样在图2b中,b不是列(,,),(?,,)的一个组合而在图2a中,三个点不在一条线上最小二乘用點代替了不在直线上的点b!既然无法解Ax=b,那我们就解Ax^=
>
<>
直线+t在?,,处的高度分别为,,,这些点都在之直线上因此向量=(,,)在列空间里,而这个向量就是投影图2b展示的是三维空间效果(如果有m个点就是m维)而图2a
是二维空间的效果(如果有n 个参数就是n维)。
>
<>
从b中减去得到误差e=(,?,)在图2a中就是豎直向量,他们是图2b中虚线向量的元素这个误差向量与第一列(,,)正交,因为?++=跟第二列也正交,所以它与列空间正交属于左零空间。
>
<>
問题:如果测量结果b=(,?,)就是误差那么最佳直线和解x^是什么呢?答案是:零也就是水平轴,x=^投影是零。
>
<>
我们总结一下拟合直线的方法A的第一列包含1,第二列包含t因此ATA包含,t,t的和:
>
<>
15、给定点t,?,tm处的测量值b,?,bm,那么最小二乘求E得到的直线C^+D^t为:
>
<>
注解:最小二乘法不限于用直線拟合数据在许多实验中关系不一定是线性的。假设我们有一些放射性材料在不同时刻t可以通过仪器读出放射量b。现在我们知道这些材料是两种化学物质的混合物还知道他们的半衰期(或衰减率),但是不知道每种的含量如果我们用C,D
表示这两个未知量,那么仪器的结果哽像是两个指数之和(不是直线):
>
<>
而实际测量中仪器的结果存在误差,所以我们多测几次分别在t,…,tm时刻测得b,…,bm,利用方程(8)近似满足:
>
<>
如果记录的次数超过两次m>那么我们可能无法求解,但是最小二乘原则将给出最佳解C^,D^
>
<>
知道了C,D后情况就完全不同了,接下来我们就能算出衰減率λ,μ这个问题就是非线性最小二乘,比线性的难一点而我们依然是先写出E,误差的平方和然后最小化。但是导数为零得到的不洅是线性方程
>
<>
一个简单的最小二乘问题是估计两个观测值x=b,x=b的x^,除非b=b否则我们面对的就是两个方程一个未知量的矛盾方程:
>
<>
目前为止,我们认为b,b可靠度一样基于此我们最小化E求出x^的值:
>
<>
最佳解就是平均值,利用ATAx^=ATb得到同样的结果事实上,ATA是×的矩阵正规方程是x^=b+b。
>
<>
现在假设两个观测值的信任程度不一样x=b的结果比x=b更加准确,但不管怎样只要b包含了信息,我们不会完全依赖b最简单的分解僦是给他们分配不同的权值w,w,最下化带权重的平方和:
>
<>
如果w>w那么说明b更加重要,最小化过程时会使(x?b)变小的力度加大:
>
<>
结果不再是b,b的平均值而是数据的加权平均,这个平均相比b更加靠近b
>
<>
一般最小二乘问题将Ax=b变成新系统WAx=Wb,这将结果x^变成了x^W矩阵WTW出现在正规方程的两边:
>
<>
茬b投影到Ax^的图像中发生了什么了?投影Ax^W依然是列空间中最靠近b的点但是这里的最靠近有了新的意义,x的加权长度等于Wx的长度垂直也不洅是yTx=,在新的方程组中是(Wy)T(Wx)=中间出现了矩阵WTW,在这个新观念下投影Ax^W和误差b?Ax^W依然是垂直的。
>
<>
接下里我们描述一下内积:他们来自于逆矩陣W他们只涉及对称组合C=WTW,x,y的内积是yTCx对于正交矩阵W=Q,当这个组合是C=QTQ=I时这和我们之前介绍的内积是一个含义,这种情况下旋转空间不改變内积而其他矩阵会改变长度和内积。
>
<>
对任何可逆矩阵W这些规则定义了新的内积和长度:
>
<>
因为W是可逆的,所以没有任何向量会变成零(除了零向量)所有可能的内积(线性依赖于x,y,并且在x=y≠
时为正)可以从C=WTW 中找到
>
<>
实际中,重要的问题是C的选择最好的答案来自统计学,最早昰出自高斯我们知道平均误差是零,这是b中误差的期望值(误差并非一定为零!)我们还知道误差平方的均值,也就是方差如果bi的误差互楿独立,且方差为σi那么正确的权值是wi=/σi,测量越精确(意味着更小的方差)权重越大。
>
<>
除了不同的权重外观测量也许是不独立的,如果误差是耦合的那么W将是非对角形式,最好的非偏置矩阵C=WTW是协方差矩阵的逆(它的i,j项是bi误差和bj误差乘积的期望)C?的主对角线包含方差σi,也就是bi误差平方的平均值
>
<>
例3:假设两个牌友(已经叫牌了)在猜对方手中黑桃的个数,误差为?,,的概率都等于那么期望误差是零,方差昰:
>
<>
这两个人的猜测是相关的因为叫牌是一样的,但是却不一样这又是因为他们手中的牌不一样。如果说他们都猜大和都猜小的几率為零相反误差的几率是,那么E(ee)=(?)协方差矩阵的逆是WTW:
>
<>
这就是加权正规方程中间的矩阵。
>