线性代数,B=P^(-1)EP可以化成E吗?

<> 版权声明:若未特别声明文章鈳随意转载,但是请注明出处~~ 文章若有侵权请在下方评论博主看到后马上删除!! /williamgavin/article/details/

<> A:就像Ax=b有时会出现无解的情况, 但是我又要求出一個解来 所以我就只能求一个最接近的解, 将Ax=b转化成Ax= 就是b在列空间上的投影。 但是记住此时的x并不是原来的x 只是一个最接近x的解

<> 峩们先来看下面这个一维空间投影的例子 <> 要求是在a向量中寻找距离b向量最近的点, 一个容易想到的做法就是通过b做投影 投影是点; 那么這个点就是距离b最近的点, 连接b 得到向量e=b-。 因为点在向量a上 所以可以用=xa来表示。因为e与a相互垂直 所以可以得到:aT(b-xa)=0。可以解得x=(aTb)/(aTa) 前面巳经说过=xa, 所以=a(aTb)/(aTa), 这就是投影 通过=a(aTb)/(aTa)这个式子我们可以看出, 当b增大到原来的两倍时 也会相应的增大到原来的两倍; 但是如果是改变a, 那麼不会变; 因为a如何改变 b在a上面的投影仍然是在a的这条线上。 <> 下面我们主要来看看的这个式子:=a(aTb)/(aTa) 它是一个矩阵, 因为组成这个式子的a、b都是向量 向量b的投影是一个矩阵, 我们把它叫做投影矩阵 记为b(因为是b的投影, 如果是a的投影 就记为a)。 这里我们来看一下这个(注意是大写的)到底是什么 在的这个式子:=a(aTb)/(aTa)中, 我们可以将括号的位置换一下得到:=b(aaT)/(aTa) 注意aaT和aTa的结果并不是一样的(aaT是一个n*n矩阵(列*行), 而aTa是一个数字) 到这里已经显而易见了=(aaT)/(aTa)。 <> 这里我们主要看看(aTa)/(aaT)这个矩阵 这个矩阵的列空间是什么? 列空间的作用就是无论你用什么向量b乘以这个矩阵 结果总会在这个列空间里面 上面那个b就在列空间之内。 可以知道矩阵的列空间就是通过a的一条直线 这个矩阵的秩就是:1. 这是一个秩一矩阵, 这个矩阵是由列乘以行得到 所以它的矩阵的列空间的基就是列。 这个列就是a一维。 来看看其余两个性质:是否昰对称矩阵 投影两次会是什么结果? 答案是是对称矩阵 因为T=。 那投影两次呢 我们知道b投影一次得到点, 由于直线上的点在该直线上嘚投影还是改点 所以有2=。这样我们就得到了投影公式:T==2
<> 下一章会讨论高维的情况
<> 目前为止我们已经知道Ax=b要么有解要么无解,如果b 不在列空间C(A) 里那么这个系统就是矛盾的,高斯消元法就会失败当有几个方程和一个未知量时失败完全可以确定:
<> 当b,b,b嘚比率是::时,上面的方程组才可解也就是说只有b 和列a=(,,)在一条直线上时x才会存在。 <> 尽管他们无解可是他们在实际中经常出现,他们必须囿解!一种可能是用系统的一部分来确定x其余部分忽略;如果所有的m个方程来源一样,这种方法就不合理我们放弃这种一些方程没误差,而有些误差大的想法我们考虑能最小化m个方程平均误差Ex值。 <> 对平方和求平均是最方便的:
<> 如果存在准确解那么最小误差E=。大部汾情况下ba不成比例关系,E的图像将是一个抛物线最小误差在最低点的位置处,也就是导数等于零的位置: <> 求出x的值这个模型系统ax=b嘚最小二乘解用x^ 来表示:
<> 相信大家立马就认出分子中的aTb和分母中的aTa了吧(是不是像投影啊)。 <> 推广到一般情况同样如此求解ax=b就是最小化
<> 对E求導并令其等于零,求出点x^ <> 11、对于ax=b这样只有一个未知变量的问题它的最小二乘解为:x^=aTbaTa <> 大家可能看出来了,我们一直从几何角度解释最小二塖问题—— 最小化距离令E的导数等于零求出解,求得的结果和上篇文章的几何形式一样连接b, 的误差向量e一定垂直于a <> 注意退化为a=的情況,这是a的任何倍数都是零线仅仅就是一个点,因此=是唯一的投影候选结果但是x^的形式变成一个无意义的数/,这表明x^完全无法确定所有x值都给出相同的误差E=x?b,所以E是一条水平线而不是抛物线伪逆给这种情况分配了一个确定的值x^=,相比较其他值这个是最好的選择的。

<> 现在我们开始难一点的问题将b投影到一个子空间上——而不是一条线上。这个问题来自于Ax=b其中Am×n矩阵,不再昰一列和一个未知量x现在矩阵有多列,m 的个数比未知量n的个数要大所以跟期望中的一样,Ax=b依然是矛盾的不可能存在完全拟合数据bx徝,换句话说向量b不是A列向量的组合;它在列空间的外面。 <> 再次回到了找出x^来最小化误差的问题这个最小化可以用最小二乘求解,误差是E=Ax?b这就是b到列空间中Ax的距离。我们要做的就是能最小化E的最小二乘解x^它和=Ax^相等,而这个就是列空间中离b最近的点 <> 我们可以鼡几何或计算来确定x^,在n维空间中我们偏爱几何; 一定是b在列空间上的投影。误差向量e=b?Ax^一定可这个空间垂直(图1)找到x^和投影=Ax^是最基本嘚,下面我们用两种方法来实现它:
  1. 所有垂直于列空间的向量位于左零空间里因此误差向量e=b?Ax^一定在AT的零空间里:
  2. 误差向量和A的每列a,,an垂直:
<> 这两种方法殊途同归,最后都是AT(b?Ax^)=,ATAx^=ATb而计算方法是通过计算E=(Ax?b)T(Ax?b)的导数,并令其等于零得ATAx?ATb=最快的方式是方程Ax=b两边乘以AT,所有这些等价方法都得到一个二次系数矩阵ATA它是对称的(它的转置可不是AAT!)并且是接下来几篇文章中非常基础的矩阵。 <> 方程ATAx^=ATb在统计学中叫做正规方程 <> 12、当Ax=b是矛盾的时候,它的最小二乘解就是最小化Ax?bA的列线性无关时ATA是可逆的!因此
b在列空间上的投影就是最近点Ax^ <> 我们举一個例子进行说明:
<> 每个列最后一个元素都是零,所以C(A)是三维空间中的x?y平面b=(,,)的投影是=(,,)x,y分量保持不变但z分量变成零,通过求解正规方程就能证实这个结果:
<> 在这种特殊情况最佳方式就是求解Ax=b的前两个方程,得到x^1=1,x^2=1方程0x1+0x2=6的误差是6。 <> 注解:假设bA的列空间里也就说存在列的组合使得b=Ax,那么b的投影依然是b
<> 最近的点就是b本身 <> 注解:考虑一个极端的情况,假设b与每列都垂直那么ATb=0,这种情况下b的投影就是零向量:
<> 注解:当A是方阵且可逆时列空间就是整个空间,每个向量的投影就是自身=b,x^=x
<> 只有这一种情况我们可以将(ATA)?1分离成A?1(AT)?1,当A是長方形矩阵时就不能这么做。 <> 注解:假设A只有一列也就是只包含a,那么矩阵ATA就是常数aTax^就是aTb/aTa,回到了最初的形式

<> 个元素是A的第i列与第j行的内积,重点是ATA 的可逆性幸运的是ATAA有相同的零空间。如果Ax=那么ATAx=A零空间中的向量x也在ATA的零空间中反过来考虑,假设ATAx=我們将它和x进行内积操作来表明Ax=
<> 两个零空间是相等的。如果A有无关列(零空间中只有x=)那么ATA同样如此: <> 13、如果A有无关列,那么ATA是方阵对称並且可逆。 <> 随后我们还会指出ATA也是正定的(所有主元和特征值都是正的) <> 到目前为止,这种情况是最常见也是最终要的如果m>n,那么m维空间嘚无关性就很容易实现

<> 我们已经说明了离b的最近点是=A(ATA)?ATb,这种形式用矩阵形式来表示就是构建bA列空间的垂线产生的矩阵是┅个投影矩阵,用 <> 这个矩阵将任何向量b投影到A的列空间上换句话说,=bb在列空间上的分量误差e=b?b是正交补中的分量。(I?也是一个投影矩阵!它将b投影到正交补上投影是b?b) <> 简单来说,有一种矩阵形式可以将b分成两个互相垂直的分量b在列空间C(A)内,其他的分量(I?)b在左零空間N(AT)内——也就是与列空间正交的空间 <> 这些投影矩阵可以从代数和几何两个角度理解。 <> - 矩阵等于自身的平方:=
- 矩阵等于它的转置:T=
<> 反过来講任何对称矩阵,如果=那么它表示一种投影。 <> 证明:很容易看出来为什么=我们先从任意向量b开始,那么b位于投影的子空间内当我們再次投影的话不会发生任何变化,向量b已经在子空间内(b)依然是b,换句话说=两次或三次或五次投影得到的结果跟第一次一样:
<> 为了证奣是对称的,我们取它的转置:
<> 反过来我们可以从=,T=推断出bb列空间上的投影,误差向量b?b与这个空间正交对于该空间内的所有向量c,内积是零:
<> 因此b?b和空间是正交的b是列空上的投影。 <> 例1:假设A是可逆的如果它是×矩阵,那么它的四列都是无关的列空间就是整個R。在整个空间上的投影是什么答案就是单位矩阵。 <> 单位矩阵是对称的并且I=I,误差向量b?Ib等于零 <> 假设我们有一堆实验数据,并且期朢输出b是输入t的线性函数也就是看成直线b=C+Dt,例如:
  1. 我们测量不同时刻卫星距火星的距离我们用t表示时间,b表示时间不考虑失去动力戓重力突然增强的情况下,卫星几乎以恒定的速度v移动:b=b+vt
  2. 我们在某个物体上放上不同的载荷,并测量它垂直方向产生的位移我们用t 表礻载荷的重量,b表示位移大小除非载太重使得物体彻底变形,否则的话根据弹性理论存在一个线性关系b=C+Dt
  3. 印制t本书的成本似乎也是线性关系:b=C+Dt其中编辑和排版成本是C,印刷和装订成本是DC是固定的,而每印制一本书成本多D
<> 如何计算C,D呢?如果没有实验误差那么两次測量的b都会得到直线b=C+Dt,但是如果有误差的话我们就考虑平均值,求出最佳的直线事实上,因为有两个未知量C,D需要确定于是我们需要投影到二维子空间上。而一般情况下我们都是多次进行试验测量的:
<> 得到的是矛盾方程组,有m个方程却只有两个未知量如果误差存在嘚话,它将不可解我们写成矩阵形式:
<> ???????tt?tm??????[CD]=??????bb?bm??????,orAx=b(7) <> 最佳解(C^,D^)就是最小化均方误差E得到的x^
<> 向量=Ax^是最接近向量b的,在所有的直线b=C+Dt中我们选出拟合数据最好的直线(图2),在图中误差是到直线的竖直距离b?C?Dt(不是垂直距离!),它对應的是竖直距离的平方求和和最小化。 <> 例2:在图2a中有三个测量值b,b,b <> 注意t=?,,不要求等距离第一步是通过三个点的方程: <> 如果这些方程Ax=b可解,那么表示没有误差但是这些点不在一条直线上,所以他们不可解因此需要用到最小二乘求解:
<> 最佳解就是C^=,D^=,最佳直线是+t
<> 注意这兩幅图之间的联系,问题是一样的但是呈现的效果不一样在图2b中,b不是列(,,),(?,,)的一个组合而在图2a中,三个点不在一条线上最小二乘用點代替了不在直线上的点b!既然无法解Ax=b,那我们就解Ax^= <> 直线+t?,,处的高度分别为,,,这些点都在之直线上因此向量=(,,)在列空间里,而这个向量就是投影图2b展示的是三维空间效果(如果有m个点就是m维)而图2a 是二维空间的效果(如果有n 个参数就是n维)。 <> 从b中减去得到误差e=(,?,)在图2a中就是豎直向量,他们是图2b中虚线向量的元素这个误差向量与第一列(,,)正交,因为?++=跟第二列也正交,所以它与列空间正交属于左零空间。 <> 問题:如果测量结果b=(,?,)就是误差那么最佳直线和解x^是什么呢?答案是:零也就是水平轴,x=^投影是零。 <> 我们总结一下拟合直线的方法A的第一列包含1,第二列包含t因此ATA包含,t,t的和: <> 15、给定点t,?,tm处的测量值b,?,bm,那么最小二乘求E得到的直线C^+D^t为:
<> 注解:最小二乘法不限于用直線拟合数据在许多实验中关系不一定是线性的。假设我们有一些放射性材料在不同时刻t可以通过仪器读出放射量b。现在我们知道这些材料是两种化学物质的混合物还知道他们的半衰期(或衰减率),但是不知道每种的含量如果我们用C,D 表示这两个未知量,那么仪器的结果哽像是两个指数之和(不是直线):
<> 而实际测量中仪器的结果存在误差,所以我们多测几次分别在t,,tm时刻测得b,,bm,利用方程(8)近似满足:
<> 如果记录的次数超过两次m>那么我们可能无法求解,但是最小二乘原则将给出最佳解C^,D^ <> 知道了C,D后情况就完全不同了,接下来我们就能算出衰減率λ,μ这个问题就是非线性最小二乘,比线性的难一点而我们依然是先写出E,误差的平方和然后最小化。但是导数为零得到的不洅是线性方程

<> 一个简单的最小二乘问题是估计两个观测值x=b,x=bx^,除非b=b否则我们面对的就是两个方程一个未知量的矛盾方程:
<> 目前为止,我们认为b,b可靠度一样基于此我们最小化E求出x^的值: <> 最佳解就是平均值,利用ATAx^=ATb得到同样的结果事实上,ATA×的矩阵正规方程是x^=b+b <> 现在假设两个观测值的信任程度不一样x=b的结果比x=b更加准确,但不管怎样只要b包含了信息,我们不会完全依赖b最简单的分解僦是给他们分配不同的权值w,w,最下化带权重的平方和:
<> 如果w>w那么说明b更加重要,最小化过程时会使(x?b)变小的力度加大:
<> 结果不再是b,b的平均值而是数据的加权平均,这个平均相比b更加靠近b <> 一般最小二乘问题将Ax=b变成新系统WAx=Wb,这将结果x^变成了x^W矩阵WTW出现在正规方程的两边: <> 茬b投影到Ax^的图像中发生了什么了?投影Ax^W依然是列空间中最靠近b的点但是这里的最靠近有了新的意义,x的加权长度等于Wx的长度垂直也不洅是yTx=,在新的方程组中是(Wy)T(Wx)=中间出现了矩阵WTW,在这个新观念下投影Ax^W和误差b?Ax^W依然是垂直的。 <> 接下里我们描述一下内积:他们来自于逆矩陣W他们只涉及对称组合C=WTWx,y的内积是yTCx对于正交矩阵W=Q,当这个组合是C=QTQ=I时这和我们之前介绍的内积是一个含义,这种情况下旋转空间不改變内积而其他矩阵会改变长度和内积。 <> 对任何可逆矩阵W这些规则定义了新的内积和长度:
<> 因为W是可逆的,所以没有任何向量会变成零(除了零向量)所有可能的内积(线性依赖于x,y,并且在x=y 时为正)可以从C=WTW 中找到 <> 实际中,重要的问题是C的选择最好的答案来自统计学,最早昰出自高斯我们知道平均误差是零,这是b中误差的期望值(误差并非一定为零!)我们还知道误差平方的均值,也就是方差如果bi的误差互楿独立,且方差为σi那么正确的权值是wi=/σi,测量越精确(意味着更小的方差)权重越大。 <> 除了不同的权重外观测量也许是不独立的,如果误差是耦合的那么W将是非对角形式,最好的非偏置矩阵C=WTW是协方差矩阵的逆(它的i,j项是bi误差和bj误差乘积的期望)C?的主对角线包含方差σi,也就是bi误差平方的平均值 <> 例3:假设两个牌友(已经叫牌了)在猜对方手中黑桃的个数,误差为?,,的概率都等于那么期望误差是零,方差昰 <> 这两个人的猜测是相关的因为叫牌是一样的,但是却不一样这又是因为他们手中的牌不一样。如果说他们都猜大和都猜小的几率為零相反误差的几率是,那么E(ee)=(?)协方差矩阵的逆是WTW
<> 这就是加权正规方程中间的矩阵。

我要回帖

更多关于 p(a-b) 的文章

 

随机推荐