如何让特征内方差及特征间协方差矩阵 特征向量 产生联系

主成分分析PCA算法:为什么去均值以后的高维矩阵乘以其协方差矩阵的特征向量矩阵就是“投影”?
我的图书馆
主成分分析PCA算法:为什么去均值以后的高维矩阵乘以其协方差矩阵的特征向量矩阵就是“投影”?
这是从网上看到的PCA算法的步骤:第一步,分别求每列的平均值,然后对于所有的样例,都减去对应的均值。第二步,求特征协方差矩阵。第三步,求协方差的特征值和特征向量。第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。第五步,将样本点投影到选取的特征向量上。假设样例数为m,特征数为n,减去均值后的样本矩阵为DataAdjust(m*n),协方差矩阵是n*n,选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为:这几天在网上看了很多东西,对PCA算法也有了一些自己的理解,不知道对不对:1.PCA的降维,其本质是将高维空间的向量投影到一个低纬空间里。比如一个三维向量有三个坐标(或者说每条记录有3个特征值),投影到一个二维平面上,那么就变成了一个只有两个特征值的记录。这样实现了降维。2.所以PCA降维,其关键就是找到最合适的投影空间。让原来的高维矩阵投影到这个平面以后能尽可能多得保留原有的信息。但是我就不明白了:1.用PCA算法得到的这个“最合适”的低纬空间到底是什么?难道就是那个“k个特征向量分别作为列向量组成特征向量矩阵”?但是最后的操作是原来的高维矩阵(去均值以后)乘以这个“k个特征向量分别作为列向量组成特征向量矩阵”啊?难道把高维空间里的向量投影到低维空间,就是用这个高维向量乘以代表这个低纬空间的矩阵就行了么?2.为什么PCA这么操作:去均值的原矩阵*(去均值的原矩阵的协方差矩阵的特征向量作为列向量形成的矩阵)就能得到这个 “最 合 适 的 低 维 空 间” 的投影?被浏览2724415&个回答看到那么多带公式的,完善的推导,我写个带图的,公式少一些详细一些,但是不严谨的直观理解把,仅供参考。一、先从旋转和缩放角度,理解一下特征向量和特征值的几何意义从定义来理解特征向量的话,就是经过一个矩阵变换后,空间沿着特征向量的方向上相当于只发生了缩放,比如我们考虑下面的矩阵:求这个变换的特征向量和特征值,分别是:(列向量)和1.81,0.69用一个形象的例子来说明一下几何意义,我们考虑下面笑脸图案:为方便演示笑脸图案在0,0和1,1围起来的单位正方形里,同时也用两个箭头标出来了特征向量的方向。经过的变换,也就是用这个图案中的每个点的坐标和这个矩阵做乘法,得到下面图案:可以看到就是沿着两个正交的,特征向量的方向进行了缩放。这就是特征向量的一般的几何理解,这个理解我们也可以分解一下,从旋转和沿轴缩放的角度理解,分成三步:第一步,把特征向量所指的方向分别转到横轴和纵轴这一步相当于用U的转置,也就是进行了变换第二步,然后把特征值作为缩放倍数,构造一个缩放矩阵,矩阵分别沿着横轴和纵轴进行缩放:第三步,很自然地,接下来只要把这个图案转回去,也就是直接乘U就可以了所以,从旋转和缩放的角度,一个矩阵变换就是,旋转--&沿坐标轴缩放--&转回来,的三步操作,表达如下:多提一句,这里给的是个(半)正定矩阵的例子,对于不镇定的矩阵,也是能分解为,旋转--&沿坐标轴缩放--&旋转,的三步的,只不过最后一步和第一步的两个旋转不是转回去的关系了,表达如下:这个就是SVD分解,就不详细说了。另外,这个例子是二维的,高维类似,但是形象理解需要脑补。二、协方差矩阵的特征向量PCA的意义其他答主都说得差不多了,一句话概括就是找到方差在该方向上投影最大的那些方向,比如下边这个图是用作为些协方差矩阵产生的高斯分布样本::大致用个椭圆圈出来分布,相关性最强的(0.707,0.707)方向就是投影之后方差最大的方向。接下来我们不尝试严格证明,而是从旋转和缩放的角度形象理解一下,我们可以考虑把这个分布也旋转一下,让长轴在x轴上,短轴在y轴上,变成如下:然后再沿着x轴和y轴,除以标准差,缩放成标准差为1的单位分布注意,在这个除以标准差的过程中,标准差最大的轴,就对应着原空间中,样本投影后方差最大的方向。接下来,假设这个分布中的样本为,则我们可以把一开始的样本表示为:用这么别扭的表示方式主要是为了接下来推公式方便,所以接下来推个简单的公式:协方差矩阵,用S表示,则有因为这个分布里两个维度的均值都是0,所以有所以其中N是样本数,根据前面的,进一步展开这个公式:因为是个单位方差的且无相关性的样本,所以另外L是个对角矩阵所以有这个公式上一部分已经说过了。所以对角线上的元素对应的就是方差的大小,而缩放倍数就是标准差的大小,也就是特征值的开根号,而U就是要沿着缩放的方向,也就是问题中投影的方向,正是特征向量。楼主这个问题提得很好,我尝试着答一下,希望可以解答楼主的疑惑。首先我们来复习一下PCA的基本思想吧。The central idea of principal component analysis (PCA) is
to reduce the dimensionality of a data set consisting of a
large number of interrelated variables, while retaining as
much as possible of the variation present in the data set.
This is achieved by transforming to a new set of variables,
the principal components (PCs), which are uncorrelated,
and which are ordered so that the first few retain most of
the variation present in all of the original variables.
[Jolliffe, Pricipal Component Analysis, 2
nd edition]有了这个基本思想作为指导,我应该可以更好地回答楼主的两个问题了。第一个问题:用PCA算法得到的这个“最合适”的低纬空间到底是什么?回答这个问题之前,我们先来做几个定义:根据PCA的基本思想,要定义,或者说找到这个所谓“最合适”的低纬空间,我们只要做以下几步:我们接下来来做第1步:我们再来做第1步:然后我们来做第2步:以此类推,我们会得到一系列,他们组成的空间是一个跟有相同维度的空间。至于那个“最合适”的低纬空间就是吧最小特征值对应的特征向量扔掉,剩下来的那个空间。第二个问题:为什么PCA这么操作:去均值的原矩阵?从我上面的推导来看,貌似并没有涉及到去均值这一步。我去研究了一下,其实有些时候的确需要去均值,另外一些时候不需要。Pearson在1901年的一篇论文中间提到,如果不去均值的话,最优拟合超平面会通过原点,而不是的几何中心。但是也有一些例外情况中,超平面做的仅仅是把划分到相互垂直的子超平面上,这个时候去均值就不是必要的。具体情况请参见一下链接。不知道我的回答是否解决了楼主的疑惑,如果有讲的不清楚或者不对的地方还请大家指出。THU.CS PhD student1、一个向量在一个单位向量的投影是。特征向量是一组正交基,矩阵相乘就是把每个样本分别向每个特征向量上去投影。2、PCA里找到的投影方向是投影后方差最大的前k个方向(简单理解就是区分度最好的方向)。这种东西还是要找书,tutorial看提高姿势水平,网文多不靠谱。persist......foreverPCA的思想是将数据降维,降到哪些维上呢,就是使得数据分布方差最大的那些维上。主成分的意思就是,那些使得数据分布方差最大的那些维就是主成分。这个是PCA模型的思想,后面如何让方差最大,如何选出这些方向下面分步介绍。至此,我们已经学习出了降维后的空间,这个空间的p个正交基组成的矩阵就是U,这个U就代表了这个空间,对于一个新的样本点x,我们只需要将x投影到U代表的这个p维空间上就达到了降维的目的了。因此,最后的降维后的向量。整个算法的大致思路就是这样。记住PCA的思想,就是找到这样一个空间,使得原始数据投影到这个空间后的分布的方差最大化!希望对有所帮助,如有错误,还请指出!莫名入了cv的坑最近刚刚学了这些 来献丑了
首先你要理解特征向量的含义。 把矩阵理解成一个空间,那么对于一个对称正定的矩阵A,它的特征向量就是对A所构成的空间的一个正交化。特征值大小就代表 空间在 该特征值对应的特征向量上的“影响”能力,即越大在对应特征向量这个基上,包含信息‘最多’。 所谓合适的低维空间,举例说明,以128*128的图像说明,我们选最大的10个特征值对应的特征向量重构图像(如下图)再将这10个图像叠加,就能得到和原图相差无几的图片,实际上这10个特征向量构成的空间包含了原图95%的能量。第二问参考基本思想是我们找一组基底,按照方差最大为原则,得到目标函数,用拉格朗日法,求该目标函数极值,这样发现该基底为特征向量时取得极值。 如所说,参考博客中还提到了按照能量损失最小为原则,也得到了一样的结果。这里有一点要注意这里的S是原矩阵每一行Xi 自相关得到的矩阵的和,即。那么按照之前的理论分析,我们应该求这个矩阵的特征值而不是协方差矩阵,有关教科书上理论推导也都是求这个矩阵特征值。但是实际情况 都是求的协方差矩阵的特征值。而他们之间的特征向量存在转换关系,如下式右边的是协方差矩阵的特征向量 是上面S矩阵的特征向量,U是原矩阵。具体证明可参照 边肇祺的模式识别,其实就是svd分解。这样一个好处就是,还是以128*128图片为例子,就不用去解128*128维的特征值,大矩阵的特征值计算很费时,转而求小规模矩阵的特征值,然后再转化回去。你所说的去均值的原矩阵*(去均值的原矩阵的协方差矩阵的特征向量作为列向量形成的矩阵)实际上之后还要做一步归一化的过程,也就是上面那个公式。Pessimist / data fakist题主的问题是:1. 什么是『最合适』的低维空间 2. 为什么这么操作就能得到『最合适』的低维空间数学推导通通可跳过版:一般来说原始数据维度太高消耗存储空间,我们就想压缩一下维度。于是我们想在低维空间得到一个原始数据的近似表达,代价是损失了一些精度。至于如何衡量精读的损失,一般是通过『距离』来衡量,也就是Norm。这应该是题主最想知道的部分,其余的结果(包括使用特征值分解)都是从这里推导出来的。先定义一下几个Notation,不要着急推导还没有开始:高维原始数据
有维度 低维近似数据
设定维度 <img src="/DownloadImg/1/_01754" alt="l PCA,其实是由高低维度之间切换的函数定义的,而这个函数又是『人们』选择的。因为人们real懒,总想简单一点,所以选择了矩阵乘法来在高低维度自由转换。不如先记一个重建矩阵,保证size合适。我们现在仍然不知道为何物,也不知道怎么降维,但我们马上就可以知道了:# # # # # # # # # # # 推导 B E G I N # # # # # # # # # # ## 1. 求得最优降维公式# 利用L2 norm定义最优的低维近似# 展开L2 norm# 其中# 因为我们设定有正交的且单位长度的列# 求导取零得到最优解# 哇也就是说重构矩阵转置就是可以实现降维真的好简单!# 但是重构矩阵是什么?# 2. 求得最优# 我们之前说到用L2 norm衡量距离,这是对一个向量而言的。拓展到矩阵之间的距离就要使用Frobenius norm:# 因为我们定义的就是最小化精度损失得来的: subject to # 为了看得清楚一点,我们先看情况: subject to # 用矩阵表达去掉求和的sigma subject to # 用迹 (trace) 去掉norm subject to # 中间都是用trace相关的化简,如果有需要再补充,因为公式real烦 subject to # trace中的连乘可以转圈圈 subject to # 现在阶段的最优解需要用到特征值分解,i.e. 当是最大的特征值对应的特征向量的时候。括号里对应为,最大的特征值的平方# 特征值分解可以理解为:将矩阵分解为好几个『方向』(特征向量基eigenvector basis(特征向量:你才基!)),每个方向的『权重』通过特征值来衡量。特征值大,# 因为是实对称的,特征值分解可得(我一直觉得好像QAQ)# 如果不是降维到一维呢?# 那就多挑几个特征值大的特征向量嘛。# 可以证明就是个较大的特征值对应的特征向量的组合# # # # # # # # # # # 推导 E N D # # # # # # # # # # #Plus,这里用到自然是有特征值分解的,实际使用PCA的矩阵不一定是满秩的方阵,所以才会用到奇异值分解 (SVD) 。如果需要再补充SVD的细节=w=Plus^2,挑选几个特征向量好呢?可以画variance explained,近似为使用的特征值的比例图,挑选折点。到此为止,问题应该已经有很清楚的答案了。那就是:L2 norm 和 推导出来的啦。对不起,我也不想这样题主显然已经懂了PCA怎样实现,问题就是为什么这样实现。在的第12章,有两种解释, 说的是第一种解释,最大投影后方差解释,然后就是怎样表示投影后方差的问题,显然就是很显然,这里面的S就是你说的“去均值的原矩阵*(去均值的原矩阵的协方差矩阵的特征向量作为列向量形成的矩阵)”。然后的问题就是怎样最小化E的问题,因为是带约束条件的,所以这边的优化要加上一个朗格朗日的乘子,也就是,所以呢,通过对求导,这样就能够得到,这也就是为什么求特征向量的原因了朱门酒肉臭,路有克苏鲁首先,这些东西如果没有老师的话,最好是看各种靠谱教科书,然后是查 wikipedia简单来说,PCA就是做了SVD分解,SVD分解的前n项就是只选择n个基线性拟合出来的最小误差值但是很多时候,有些人不知道SVD分解的存在于是手动求 SVD 分解。对 F(s,t)做SVD分解之后 而且 于是 所以这就是为什么要求一个特征值的原因铺垫: 很容易看出,图中红线向量坐标为(3,2)。我们之所以有这个结论,是在一个前提条件下,那就是默认基为(1,0)和(0,1)。通常情况下,为了能够简洁的表示,我们将基选为单位长度并且正交的一组向量。 但是假如我们将基选为(1,1)和(-1,1),那么红色向量的坐标变成什么呢?(1,1)*(3,2)=5,(-1,1)*((3,2)=-1,即变成(5,-1)。 本质上讲,PCA就是将高维的数据通过线性变换投影到低维空间上去,但这个投影可不是随便投投,要遵循一个指导思想,那就是:找出最能够代表原始数据的投影方法。首先的首先,我们得需要知道各维度间的相关性以及个维度上的方差啊!那有什么数据结构能同时表现不同维度间的相关性以及各个维度上的方差呢?自然是非协方差矩阵莫属。 协方差矩阵的主对角线上的元素是各个维度上的方差(即能量),其他元素是两两维度间的协方差(即相关性)。我们要的东西协方差矩阵都有了,先来 看“降噪”,让保留下的不同维度间的相关性尽可能小,也就是说让协方差矩阵中非对角线元素都基本为零。达到这个目的的方式自然不用说,线代中讲的很明确——矩阵对角化。而对角化后得到的矩阵,其对角线上是协方差矩阵的特征值,它还有两个身份:首先,它还是各个维度上的新方差;其次,它是各个维度本身应该拥有的能量(能量的概念伴随特征值而来)。 对角化后的协方差矩阵,对角线上较小的新方差对应的就是那些该去掉的维度。 所以我们只取那些含有较大能量(特征值)的维度,其余的就舍掉即可。PCA的本质其实就是对角化协方差矩阵。前面的回答理论讲得很多,不过看着也累。这里就举个例子,应该更容易理解。 这个例子是将二维转化为一维。五个点(-1,-2)(-1,0)(0,0)(0,1)(2,1),确定一个基坐标,将其投影过去,要求保存最大的信息量。首先,很直观的知道,不能投影去x轴或者y轴。如果投影去x轴,有两点在x轴方向投影一致,会造成信息损失。y轴也同理。 那么我们就用主成分分析方法来推导 那么降维之后的图像便是这样 之前(-1,-2)这点现在的坐标变为了 那么我们就成功地将二维向量降为一维,并且尽可能多地保留了信息。 那么回到题主问题“为什么去均值以后的高维矩阵乘以其协方差矩阵的特征向量矩阵就是“投影”?”就我举的这个例子来说,其实这个特征向量就是我们在一维空间内选择的基,乘以原向量,其结果刚好为新基的坐标,即相当于其投影。当然推广到多维肯定更加复杂,但其原理不变。题主可以结合这个例子好好理解一下。 答主本科学习过PCA,但一直没弄清其本质,现在想来重新温习一下,有不对之处请指出。本文内容大量参考想要更加深入了解请点击链接。CS PhD Candidate @ UMPCA 可以用来做降维,但通俗一点说,其本质应该是线性空间坐标系的转换,从原始的空间坐标系,转换到一个“合适的”的坐标系来表达,在这个坐标系中,主要信息都集中在了某几个坐标轴上,所以只保留这个“关键”的坐标系上的表达,就能很大程度approximate原信号。算法怎么计算很重要,但是更重要的是要了然做每一步的motivation,这样才不至于被太多计算细节所困住,见树木不见森林。推荐一个arXiv 上的一个Tutorial:. Google的一个researcher写的,通熟易懂,后面附有matlab代码。这个是推导出来的结论:找到一个投影空间,让在上面投影后的数据的方差最大化,对应优化结果就是这个拖延症重度更新,
是协方差矩阵==============================原回答==============================题主应该主要有两个问题:第一个问题,图片来源:上面图片中,一个样本点有两个特征,现在要去掉一维,不进行坐标变换就是直接将样本投影到轴或者轴(直接去掉一个特征)。那么有没有更好的方向进行投影,并保留最多的信息呢(降维的目的)?这里正确的方向就是:将样本投影到图中较长箭头的方向,记做方向(没有找到向量符号)。为什么?这样投影后样本方差最大。(信噪比也用方差比来衡量)那么为什么这个方向方差最大?设上图中发出两个箭头的点是(投影中心),它投影到轴的点就叫。那么对于图中一个样本,那么多数情况下样本投影到方向与投影中心的距离要大于投影到轴的,这样方差也就大!这里短箭头则是最坏的方向,原因样本投影到这两个箭头的值满足勾股定理,和是样本到的距离。下面是解决第二个问题,首先,接着第一个问题的最佳方向,如果我们将坐标轴旋转一下方向与箭头方向重合,那么也可以直接去掉一个特征不是?所以,解决第二个问题就是将标准基旋转到一个正确的位置,然后选择最好的几个轴即可!有一个正交矩阵,及数据矩阵,那么是?是对原始数据进行旋转,山不转水转,是不是相当于旋转了标准基。正交变换保证了两个向量变换前后模长和内积没有变化,所以变换等同旋转。是特征*样本表示的话,那么中心化之后就是协方差矩阵了,可以表示特征间的线性关系。我们想要的是进行变换后,我们的协方差矩阵是一个对角阵!两个特征协方差不为,说明存在冗余。好,到此为止,说一下要办的事:找到一个正交阵(单位正交阵),对原始数据进行变换后的协方差矩阵为一个对角阵。正交阵也是投影的方向互相垂直。也就是:,即做个正交对角化并按照特征值降序改变,的每个行是新坐标的基向量,选择合适的维度直接去掉下面几行进行降维,PCA就做完了。这里,题主问题二来了,为什么刚好是特征向量?上面两条却还差一点:,即的每一列都是的特征向量!也就是一个对称阵能被正交对角化的都是它的特征向量组成的矩阵。那么,这样对角矩阵元素,就确定了,最大方差也只能从这里面出,降序挑选即可。hu~~~ 这篇Tutorial给了很大指引,读下来之后可能就补充的一条需要想到。PS. 第一次看到PCA对正好是特征向量矩阵也感到不可理解,所以也关注了这个问题(拉格朗日证明很对,但是觉得应该有其他理由),这里把能说服自己的理由贴出来,不对的望指正。模式识别小白今年做毕业设计时用到KPCA(核主成分分析)和主成分分析(PCA),当时思考了一下,收获了不少。现看到这个题目,试着回答一下,算是提供一种思路吧。以下正文:首先PCA的目的是数据维数压缩,尽可能降低原数据的维数,但要不损失信息或者损失少量信息。为此,它在后面处理时选择了特征值最大(目前我的理解是绝对值最大)的特征值对应的特征向量组成变换矩阵。可以说PCA基于一点假设,即认为数据在各维上是随机的(或者说每个数据看成一个随机向量),然后构建协方差矩阵。这个协方差矩阵是对称矩阵,主对角元素是各维数据的方差,而其他的则是各维数据之间的协方差,反映了各维数据之间的「线性」相关性,并且不为零时说明存在着相关性,那么也就存在着「冗余信息」(可以联想解线性方程组时的多余/无效方程组)。维数压缩,那么就要去掉/舍弃多余的维(或者说不太重要、影响小的维)!那么先去掉各维之间的相关性,那么最好是全部去掉相关性,即使得压缩后的数据的协方差矩阵能是一个对角阵那该多好啊(^_^)!这就是PCA的思想。那我们就试着把目标数据(变换后的数据)的协方差矩阵变成一个对角阵!于是可以描述为:给定数据集X,求线性变换使得变换后的数据集的协方差矩阵是一个对角阵。下面就是矩阵对角化的问题了。简单推导一下以更加理解:数据集X为N个M维的特征数据构成的M*N的矩阵,记是一个M维随机向量,表示变换后的数据向量,CX和CY分别表示原数据(随机向量)和变换后数据(随机向量)的协方差矩阵。有:将CX对角化,即矩阵B为Cx的特征列向量构成的可逆矩阵。可见,当B为正交阵(先相似求特征向量再正交化)时,若取即为变换矩阵,它可使协方差矩阵即达到了要求。此时没有进行压缩。取,那么A也是正交阵,或者至少是正交向量组构成的矩阵。然后选择特征值最大(目前我的理解是绝对值最大)的K个特征值对应的特征向量(注此时的特征向量已经不再是原来的特征向量了,是正交化后的向量,正交化后的向量是原来特征向量的线性组合,仍然是和与原特征值对应的特征向量)进行投影得到新数据,也就是PCA处理后的数据。首先说明:这里的投影,实质上是做内积运算,即数据向量(组)和特征向量(组)之间点积运算(用向量组的话通过矩阵乘法可以一次性变换所有的数据!)。下面进行映射/投影。一般我们计算得到的特征值和特征向量,然后正交化、单位化后得到矩阵B,我们假设已经对B按特征值绝对值大小排好顺序,从正交矩阵B中取K个特征向量,组成矩阵,它是一个M*K(K≤M)的矩阵,矩阵中的K个单位正交列向量组就是投影所选择的方向。投影:这里是一个K维列向量。即映射/投影时,是用矩阵的转置去乘以原数据,这样仍然得到一个列向量,或者用原数据去乘以矩阵,这样得到的是一个行向量即。【说明】:直接用矩阵的转置去乘数据,将同时得到变换后数据的K个维的值,如果只取其中一个向量,则只能得到新数据的一个维的值。可以参考直角坐标系,取向量(2,3),目标向量组取x、y轴的单位向量,列向量的两维分别表示x和y值,即有【如果把原数据以列(行)向量形式组成一个矩阵X,那么将一次性得到所有变换后的数据,并且也是列(行)向量形式。】回到问题。1——“映射后的低维空间”:我们先假设没有进行正交化,直接用Cx的特征向量进行投影,那么根据向量空间的知识,“低维空间下”就是所选的Cx的特征向量构成的空间。于是现在正交化了,那么就是由所选的特征向量正交化后的向量构成的空间,此时向量间是正交且是单位的,而原特征向量则不一定正交(对于实对称矩阵,取决于其特征值的特点,互不相同则必正交,存在重根则必不完全互相正交)。所以“映射后的低维空间”是一个以B的列向量为基(是单位正交向量组)的线性空间,基的列向量之间相互正交。2——“…相乘就是投影”:如上面解释的那样,那样运算,才是投影运算;并且按题主所说"数据乘以向量组",那么在原数据是列向量时得到的新数据是行向量形式。
TA的最新馆藏
喜欢该文的人也喜欢1790人阅读
1. 均&#20540;:描述的是样本集合的中间点。公式如下
<span style="font-size:24 color:#.标准方差:描述的是样本集合的各个样本点到均&#20540;的距离之平均,一般是用来描述一维数据的。
3.协方差:
&&&&&& 1)是一种用来度量两个随机变量关系的统计量。
&&&&&& 2)只能处理二维问题。
&&&&&& 3)计算协方差需要计算均&#20540;。
4. 方差与协方差的关系
方差是用来度量单个变量自身变异大小的总体参数,方差越大表明该变量的变异越大协方差是用来度量两个变量之间协同变异大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对&#20540;越大,则二个变量相互影响越大。
5.协方差矩阵
&&&&&& 1)协方差矩阵能处理多维问题;
&&&&&& 2)协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。
&&&&&& 3)协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。
&&&&&& 4)样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要按列计算均&#20540;。
&&& 如果数据是维,那么协方差矩阵是:
&&& 协方差(第列所有元素第列均&#20540;)(第列所有元素第列均&#20540;)(样本数)
&& 下面在给出一个维样本的实例:
& 我们还可以看出,协方差矩阵都是方阵,它的维度与样本维度有关(相等)
6.特征&#20540;与特征向量
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:50441次
排名:千里之外
原创:27篇
转载:49篇
评论:11条
(1)(8)(2)(4)(55)(6)(1)
(window.slotbydup = window.slotbydup || []).push({
id: '4740887',
container: s,
size: '250,250',
display: 'inlay-fix'2807人阅读
Machine Learning(8)
均&#20540;:描述的是样本集合的中间点。
方差:描述的是样本集合的各个样本点到均&#20540;的距离之平均,一般是用来描述一维数据的。
是一种用来度量两个随机变量关系的统计量。只能处理二维问题。计算协方差需要计算均&#20540;。
方差与协方差的关系
方差是用来度量单个变量 “ 自身变异”大小的总体参数,方差越大表明该变量的变异越大
协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对&#20540;越大,则二个变量相互影响越大。
协方差矩阵:
协方差矩阵能处理多维问题;协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要按列计算均&#20540;。
如果数据是3维,那么协方差矩阵是:
特征&#20540;与特征向量
线性变化:
(线性映射)是在作用于两个向量空间之间的函数,它保持向量加法和标量乘法的运算,从一个向量空间变化到另一个向量空间。实际上线性变换表现出来的就是一个矩阵。
是一体的概念:
对于一个给定的线性变换(矩阵A),它的特征向量&ξ&经过这个线性变换之后,得到的新向量仍然与原来的ξ保持在同一條直線上,但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征&#20540;(本征&#20540;)。
数学描述:Aξ=λξ
&在线性变换A的作用下,向量ξ仅仅在尺度上变为原来的λ倍。称ξ是线性变换A的一个特征向量,λ是对应的特征&#20540;。
矩阵是一个表示二维空间的数组,矩阵可以看做是一个变换。在线性代数中,矩阵可以把一个向量变换到另一个位置,或者说从一个坐标系变换到另一个坐标系。矩阵的“基”,实际就是变换时所用的坐标系。矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中,原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征&#20540;。任意给定一个矩阵A,并不是对所有的向量x它都能拉长(缩短)。凡是能被矩阵A拉长(缩短)的向量就称为矩阵A的特征向量(Eigenvector);拉长(缩短)的量就是这个特征向量对应的特征&#20540;(Eigenvalue)。一个矩阵可能可以拉长(缩短)多个向量,因此它就可能有多个特征&#20540;。对于实对称矩阵来说,不同特征&#20540;对应的特征向量必定正交。一个变换矩阵的所有特征向量组成了这个变换矩阵的一组基。所谓基,可以理解为坐标系的轴。我们平常用到的大多是直角坐标系,在线性代数中可以把这个坐标系扭曲、拉伸、旋转,称为基变换。我们可以按需求去设定基,但是基的轴之间必须是线性无关的,也就是保证坐标系的不同轴不要指向同一个方向或可以被别的轴组合而成,否则的话原来的空间就“撑”不起来了。在主成分分析(PCA)中,我们通过在拉伸最大的方向设置基,忽略一些小的量,可以极大的压缩数据而减小失真。变换矩阵的所有特征向量作为空间的基之所以重要,是因为在这些方向上变换矩阵可以拉伸向量而不必扭曲它,使得计算大为简单。因此特征&#20540;固然重要,但我们的终极目标却是特征向量。同一特征&#20540;的任意多个特征向量的线性组合仍然是A属于同一特征&#20540;的特征向量。
  顾名思义,特征&#20540;和特征向量表达了一个线性变换的特征。在物理意义上,一个高维空间的线性变换可以想象是在对一个向量在各个方向上进行了不同程度的变换,而特征向量之间是线性无关的,它们对应了最主要的变换方向,同时特征&#20540;表达了相应的变换程度。
  具体的说,求特征向量,就是把矩阵A所代表的空间进行正交分解,使得A的向量集合可以表示为每个向量a在各个特征向量上的投影长度。我们通常求特征&#20540;和特征向量即为求出这个矩阵能使哪些向量只发生拉伸,而方向不发生变化,观察其发生拉伸的程度。这样做的意义在于,看清一个矩阵在哪些方面能产生最大的分散度(scatter),减少重叠,意味着更多的信息被保留下来。
&Referee:
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:1369461次
积分:13129
积分:13129
排名:第1061名
原创:203篇
转载:311篇
评论:139条
(window.slotbydup = window.slotbydup || []).push({
id: '4740887',
container: s,
size: '250,250',
display: 'inlay-fix'

我要回帖

更多关于 协方差矩阵的特征向量 的文章

 

随机推荐