主成分分析的主要步骤和因子分析的区别

关注今日:22 | 主题:177941
微信扫一扫
扫一扫,下载丁香园 App
即送15丁当
【求助】主成分分析和因子分析的优缺点比较
页码直达:
这个帖子发布于8年零16天前,其中的信息可能已发生改变或有所发展。
求助:主成分分析和因子分析的优缺点比较谢谢:)
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
快考试了紧急求助.请各位高手指点.
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
丁香园准中级站友
没法给你说得太详细,只能指点你去看一篇文章,陈峰写得,关于因子分析和主成分分析的联系与区别。自己查一下看看吧。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
因子分析是从这样的角度看问题的。即展示在我们面前的诸多变量由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从作为输出的诸多变量的数据中探查输入(公共因子)和特殊干扰(特殊因子)是什么?以及输入和特殊干扰如何作用(组合系数是多少)产生输出。主成分分析则简单一些,它只是从空间生成的角度看问题。寻找能解释诸多变量变异绝大部分的一组彼此不相关的新变量(主成分)。二者的区别在于,主成分分析实际上是p维空间(原始数据,可视为输出,非正交)对应p维空间(可视为输入,正交)。而因子分析实际上是m维空间(原始数据,可视为输出,非正交)对应n维空间(因子,正交,可视为输入)。从这里可以看到,主成分分析是指两个同维空间的线性变换,而因子分析是指两个一般空间的线性变换外加一个特殊因子的扰动。因此,主成分分析可以看成因子分析的特例。因子得分、特征值和特征向量不同的因素有这么一些。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
新新手 因子分析是从这样的角度看问题的。即展示在我们面前的诸多变量由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从作为输出的诸多变量的数据中探查输入(公共因子)和特殊干扰(特殊因子)是什么?以及输入和特殊干扰如何作用(组合系数是多少)产生输出。主成分分析则简单一些,它只是从空间生成的角度看问题。寻找能解释诸多变量变异绝大部分的一组彼此不相关的新变量(主成分)。二者的区别在于,主成分分析实际上是p维空间(原始数据,可视为输出,非正交)对应p维空间(可视为输入,正交)。而因子分析实际上是m维空间(原始数据,可视为输出,非正交)对应n维空间(因子,正交,可视为输入)。从这里可以看到,主成分分析是指两个同维空间的线性变换,而因子分析是指两个一般空间的线性变换外加一个特殊因子的扰动。因此,主成分分析可以看成因子分析的特例。因子得分、特征值和特征向量不同的因素有这么一些。讲得好清楚,点赞。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
SPSS_第10章 主成分分析和因子分析详解.ppt25页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:300 &&
你可能关注的文档:
··········
··········
第十章 主成分分析和因子分析 主要内容 11.1 主成分析 12.2 因子分析 11.1 主成分析 基本概念
主成分分析(Principal Component Analysis)就是考虑各指标之间的相互关系,利用降维的方法将多个指标转换为少数几个互不相关的指标,从而使进一步研究变得简单的一种统计方法。主成分分析是由Hotelling于1933年首先提出的,是利用“降维”的思想,在损失很少信息的前提下把多个指标转化为几个综合指标,称为主成分。分类变量和连续变量均可以参与两步聚类分析。 每个主成分均是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。主成分分析不能看作是研究的结果,而应该在主成分分析的基础上继续采用其他多元统计方法来解决实际问题。 11.1 主成分析 统计原理 11.1 主成分析 分析步骤 第1步 原始数据的标准化处理; 第2步 计算相关系数矩阵;
第3步 计算特征值及单位特征向量;
第4步 计算主成分的方差贡献率和累计方差贡献率; 第5步 计算主成分。 11.1 主成分析 SPSS实现举例 【例11-1】为了从总体上反映世界经济全球化的状况,现选择了具有代表性的16个国家的数据,这些国家参与经济全球化程度指标值见下表。试对其进行主成分分析。
11.1 主成分析 第1步 分析:根据题目要求,需进行主成分分析。 第2步 数据组织:按如上表所示的“指标”一列定义变量,输入数据并保存; 第3步 主成分分析的设置,主要如下两图所示。 11.1 主成分析 第4步 因子分析的结果; 11.1 主成分析 11.1 主成分析 11.1 主成分析 11.1 主成分析 11.1 主成分析 11.1 主成分析 主要内容 11.1 主成分析 11.2 因子分析 11.2 因子分析 基本概念 因子分析是一种通过显在变量测评潜在变量
正在加载中,请稍后...主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。
二、基本思想的异同
(一) 共同点
主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。
聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。
(二) 不同之处
主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m & p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。
因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。
聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。
从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。
三、数据标准化的比较
主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据。而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价。
聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z 分数法。
四、应用中的优缺点比较
(一) 主成分分析
首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。
当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。
(二) 因子分析
第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。
在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。
(三) 聚类分析
聚类分析模型的优点就是直观,结论形式简明。
在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
阅读(...) 评论()(window.slotbydup=window.slotbydup || []).push({
id: '2014386',
container: s,
size: '234,60',
display: 'inlay-fix'
&&|&&0次下载&&|&&总12页&&|
您的计算机尚未安装Flash,点击安装&
阅读已结束,如需下载到电脑,请使用积分()
下载:5积分
17人评价7页
18人评价4页
0人评价4页
3人评价2页
0人评价4页
所需积分:(友情提示:大部分文档均可免费预览!下载之前请务必先预览阅读,以免误下载造成积分浪费!)
(多个标签用逗号分隔)
文不对题,内容与标题介绍不符
广告内容或内容过于简单
文档乱码或无法正常显示
若此文档涉嫌侵害了您的权利,请参照说明。
评价文档:
下载:5积分

我要回帖

更多关于 主成分分析 知乎 的文章

 

随机推荐