SPSS如何得到每个样本的spss 线性回归 残差图后残差数据

请问怎么用SPSS做残差图?—童鞋数据分析问题集锦(61)
- 数据分析的日志,人人网,数据分析的公共主页
请问怎么用SPSS做残差图?—童鞋数据分析问题集锦(61)
来自聂同学的问题:请问怎么用SPSS做残差图,急求~!~!谢谢~
阅读(5779)|
是回归分析的残差图吗
人人移动客户端下载SPSS回归多元线性回归模型案例解析
多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程 为:
&&& 毫无疑问,多元线性回归方程应该为:
上图中的 x1,& x2, xp分别代表&自变量&Xp截止,代表有P个自变量,如果有&N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示:
那么,多元线性回归方程矩阵形式为:
&&&&& 其中:&代表随机误差, 其中随机误差分为:可解释的误差 和 不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样)
1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。
2:无偏性假设,即指:期望值为0
3:同共方差性假设,即指,所有的& 随机误差变量方差都相等
4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。
& 今天跟大家一起讨论一下,SPSS多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:
点击&分析&&&回归&&线性&&进入如下图所示的界面:
将&销售量&作为&因变量&拖入因变量框内, 将&车长,车宽,耗油率,车净重等10个自变量 拖入自变量框内,如上图所示,在&方法&旁边,选择&逐步&,当然,你也可以选择其它的方式,如果你选择&进入&默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入)
如果你选择&逐步&这个方法,将会得到如下图所示的结果:(将会根据预先设定的&F统计量的概率值进行筛选,最先进入回归方程的&自变量&应该是跟&因变量&关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴 跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)
&选择变量(E)" 框内,我并没有输入数据,如果你需要对某个&自变量&进行条件筛选,可以将那个自变量,移入&选择变量框&内,有一个前提就是:该变量从未在另一个目标列表中出现!,再点击&规则&设定相应的&筛选条件&即可,如下图所示:
点击&统计量&弹出如下所示的框,如下所示:
在&回归系数&下面勾选&估计,在右侧勾选&模型拟合度& 和&共线性诊断& 两个选项,再勾选&个案诊断&再点击&离群值&一般默认值为&3&,(设定异常值的依据,只有当残差超过3倍标准差的观测才会被当做异常值) 点击继续。
共线性检验,如果有两个或两个以上的自变量之间存在线性相关关系,就会产生多重共线性现象。这时候,用最小二乘法估计的模型参数就会不稳定,回归系数的估计值很容易引起误导或者导致错误的结论。所以,需要勾选&共线性诊断&来做判断
& 通过容许度可以计算共线性的存在与否? 容许度TOL=1-RI平方 或方差膨胀因子(VIF):& VIF=1/1-RI平方,其中RI平方是用其他自变量预测第I个变量的复相关系数,显然,VIF为TOL的倒数,TOL的值越小,VIF的值越大,自变量XI与其他自变量之间存在共线性的可能性越大。
提供三种处理方法:1:从有共线性问题的变量里删除不重要的变量
2:增加样本量或重新抽取样本。
3:采用其他方法拟合模型,如领回归法,逐步回归法,主成分分析法。
再点击&绘制&选项,如下所示:
& 上图中:
DEPENDENT( 因变量)&& ZPRED(标准化预测值)& ZRESID(标准化残差)&&& DRESID(剔除残差)&&& ADJPRED(修正后预测值)&& SRSID(学生化残差)& SDRESID(学生化剔除残差)
&一般我们大部分以&自变量&作为 X 轴,用&残差&作为Y轴, 但是,也不要忽略特殊情况,这里我们以&ZPRED(标准化预测值)作为"x" 轴,分别用&SDRESID(血生化剔除残差)&和&ZRESID(标准化残差)作为Y轴,分别作为两组绘图变量。
再点击&保存&按钮,进入如下界面:
如上图所示:勾选&距离&下面的&cook距离&选项 (cook 距离,主要是指:把一个个案从计算回归系数的样本中剔除时所引起的残差大小,cook距离越大,表明该个案对回归系数的影响也越大)
在&预测区间&勾选&均值&和&单值& 点击&继续&按钮,再点击&确定按钮,得到如下所示的分析结果:(此分析结果,采用的是&逐步法&得到的结果)
接着上一期的&多元线性回归解析&里面的内容,上一次,没有写结果分析,这次补上,结果分析如下所示:
结果分析1:
由于开始选择的是&逐步&法,逐步法是&向前&和&向后&的结合体,从结果可以看出,最先进入&线性回归模型&的是&price in thousands"&& 建立了模型1,紧随其后的是&Wheelbase"& 建立了模型2,所以,模型中有此方法有个概率值,当小于等于0.05时,进入&线性回归模型&(最先进入模型的,相关性最强,关系最为密切)当大于等0.1时,从&线性模型中&剔除
结果分析:
1:从&模型汇总&中可以看出,有两个模型,(模型1和模型2)从R2 拟合优度来看,模型2的拟合优度明显比模型1要好一些
(0.422&0.300)
2:从&Anova"表中,可以看出&模型2&中的&回归平方和&为115.311,&残差平方和&为153.072,由于总平方和=回归平方和+残差平方和,由于残差平方和(即指随即误差,不可解释的误差)由于&回归平方和&跟&残差平方和&几乎接近,所有,此线性回归模型只解释了总平方和的一半,
3:根据后面的&F统计量&的概率值为0.00,由于0.00&0.01,随着&自变量&的引入,其显著性概率值均远小于0.01,所以可以显著地拒绝总体回归系数为0的原假设,通过ANOVA方差分析表可以看出&销售量&与&价格&和&轴距&之间存在着线性关系,至于线性关系的强弱,需要进一步进行分析。
&结果分析:
1:从&已排除的变量&表中,可以看出:&模型2&中各变量的T检的概率值都大于&0.05&所以,不能够引入&线性回归模型&必须剔除。
从&系数a& 表中可以看出:
1:多元线性回归方程应该为:销售量=-1.822-0.055*价格+0.061*轴距
但是,由于常数项的sig为(0.116&0.1) 所以常数项不具备显著性,所以,我们再看后面的&标准系数&,在标准系数一列中,可以看到&常数项&没有数值,已经被剔除
所以:标准化的回归方程为:销售量=-0.59*价格+0.356*轴距
2:再看最后一列&共线性统计量&,其中&价格&和&轴距&两个容差和&vif都一样,而且VIF都为1.012,且都小于5,所以两个自变量之间没有出现共线性,容忍度和膨胀因子是互为倒数关系,容忍度越小,膨胀因子越大,发生共线性的可能性也越大
从&共线性诊断&表中可以看出:
1:共线性诊断采用的是&特征值&的方式,特征值主要用来刻画自变量的方差,诊断自变量间是否存在较强多重共线性的另一种方法是利用主成分分析法,基本思想是:如果自变量间确实存在较强的相关关系,那么它们之间必然存在信息重叠,于是就可以从这些自变量中提取出既能反应自变量信息(方差),而且有相互独立的因素(成分)来,该方法主要从自变量间的相关系数矩阵出发,计算相关系数矩阵的特征值,得到相应的若干成分。
从上图可以看出:从自变量相关系数矩阵出发,计算得到了三个特征值(模型2中),最大特征值为2.847, 最小特征值为0.003
条件索引=最大特征值/相对特征值 再进行开方 (即特征值2的 条件索引为 2.847/0.150 再开方=4.351)
标准化后,方差为1,每一个特征值都能够刻画某自变量的一定比例,所有的特征值能将刻画某自变量信息的全部,于是,我们可以得到以下结论:
1:价格在方差标准化后,第一个特征值解释了其方差的0.02, 第二个特征值解释了0.97,第三个特征值解释了0.002:轴距在方差标准化后,第一个特征值解释了其方差的0.00, 第二个特征值解释了0.01,第三个特征值解释了0.99
可以看出:没有一个特征值,既能够解释&价格&又能够解释&轴距&所以&价格&和&轴距&之间存在共线性较弱。前面的结论进一步得到了论证。(残差统计量的表中数值怎么来的,这个计算过程,我就不写了)
从上图可以得知:大部分自变量的残差都符合正太分布,只有一,两处地方稍有偏离,如图上的(-5到-3区域的)处理偏离状态
> 本站内容系网友提交或本网编辑转载,其目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时与本网联系,我们将在第一时间删除内容!
今天跟大家研究和分享一下:spss非参数检验——两独立样本检验,
我还是引用教程里面的案例,以:一种产品有两种不同的工艺生产方法,那他们的使用寿命分别是否相同 下面进行假设:1:一种产品两种不同的工艺生产方法,他们的使用寿命分布是相同的
2:一种产品两种不同的工艺生产方法,他们的使用寿命分布是不相同的 我们 ...
设置一个阈值(一般为5%),称为否定域,当随机事件处于否定域之内,则可以否定这个模型. 其中Pr(& |t|)指的事件落在否定域的概率.
下图中的点表示数据集中除Fertility之外的所有属性.
当上图中某些属性显著性不明显时,可以根据经验增加属性或减少属性. 下图中.~.指的是原属性.
继续以上一期的样本为例,雌性老鼠和雄性老鼠,在注射毒素后,经过一段时间,观察老鼠死亡和存活情况. 研究的问题是:老鼠在注射毒液后,死亡和存活情况,会不会跟性别有关? 样本数据如下所示: (a代表雄性老鼠
b代表雌性老鼠
1 代表活着
tim 代表注射毒液后,经过多长时间,观察结果) 点击“分析”——比较均值———单因素AV ...
比用matlab简单. 多元回归分析 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析.可以建立因变量y与各自变量xj(j=1,2,3,-,n)之间的多元线性回归模型: 其中:b0是回归常数:bk(k=1,2,3,-,n)是回归参数:e是随机误差. 多元回归在病虫预报中的应用实例: 某地区病虫测报站用相关系数法选取了以下 ...
1.多元线性回归模型 假定被解释变量与多个解释变量之间具有线性关系,是解释变量的多元线性函数,称为多元线性回归模型.即 (1.1) 其中为被解释变量,为个解释变量,为个未知参数,为随机误差项. 被解释变量的期望值与解释变量的线性方程为: (1.2) 称为多元总体线性回归方程,简称总体回归方程. 对于组观测值,其方程组形式为: (1.3) 即 其矩阵形式为 = ...
概述 根据图形(实际点),选配一条恰当的函数形式(类型)---需要数学理论与基础和经验.(并写出该函数表达式的一般形式,含待定系数)------选用某条回归命令求出所有的待定系数.所以可以说,回归就是求待定系数的过程(需确定函数的形式) 1.[b,bint,r,rint,s]=regress(y,X,alpha)或者如下图: 每条线长度表示的是置信区间,小圆 ...
非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何形式的模型
非线性,能够通过变量转换成为线性模型——称之为本质线性模型,转换后的模型,用线性回归的方式处理转换后的模型,有的非线性模型并不能够通过变量转换为线性模型,我们称之为:本质非线性模型
还是以“销售量” ...
线性回归数据来自于国泰安数据服务中心的经济研究数据库.网址:/p/sq/.数据名称为:全国各地区能源消耗量与产量,该数据的年度标识为2006年,地区包括我国30个省,直辖市,自治区(西藏地区无数据). 1.1 数据预处理 数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化 ...苹果/安卓/wp
积分 2604, 距离下一级还需 996 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限, 设置回复可见
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡下一级可获得
道具: 千斤顶
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
难过签到天数: 4 天连续签到: 1 天[LV.2]偶尔看看I
本帖最后由 wanghaidong918 于
09:12 编辑
&p&各位学长,用SPSS做多元回归,我要得到如何得到每个样本的回归残差?每个样本的回归残差再作为新的变量.请多多指点&/p&
载入中......
在多元回归分析里面,Save选项下面,Residuals复选框下面可以选择残差,有标准化,非标准化的,以及其它类型的。
本帖被以下文库推荐
& |主题: 1362, 订阅: 7
在多元回归分析里面,Save选项下面,Residuals复选框下面可以选择残差,有标准化,非标准化的,以及其它类型的。
总评分:&经验 + 3&
论坛币 + 10&
谢谢你撒,好人
我想得到每个样本的残差值怎么办呢 楼上说的只能得到残差的大致分布看不到每个样本的残差值的大小
记,忆 发表于
我想得到每个样本的残差值怎么办呢 楼上说的只能得到残差的大致分布看不到每个样本的残差值的大小亲,你现在知道怎么导出来了么?能不能给我教一下
我也被这个问题困扰,是不是SPSS不能做到啊
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
加入我们,立即就学扫码下载「就学」app& Join us!& JoinLearn&
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
京公网安备号
论坛法律顾问:王进律师&& 线性回归数据来自于国泰安数据服务中心的经济研究数据库。网址:。数据名称为:全国各地区能源消耗量与产量,该数据的年度标识为2006年,地区包括我国30个省,直辖市,自治区(西藏地区无数据)。
1.1 数据预处理
数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等。本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。
1.1.1 数据导入与定义
单击&打开数据文档&,将xls格式的全国各地区能源消耗量与产量的数据导入SPSS中,如图1-1所示。
&& & & & & & & & & & & & & & & & & & & & & & & & & & & & 图1-1 导入数据
导入过程中,各个字段的值都被转化为字符串型(String),我们需要手动将相应的字段转回数值型。单击菜单栏的&&--&&&将所选的变量改为数值型。如图1-2所示:
图1-2&定义变量数据类型
1.1.2 数据清理
数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据完整性。单击&&--&&&,将检查所输入的数据的缺失值个数以及百分比等。如图1-3所示:
图1-3缺失值分析
能源数据缺失值分析结果如表1-1所示:
&& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & 单变量统计
能源消费总量
煤炭消费量
焦炭消费量
原油消费量
汽油消费量
煤油消费量
柴油消费量
燃料油消费量
天然气消费量
电力消费量
燃料油产量
天然气产量
表2-1 能源消耗量与产量数据缺失值分析
&& & & & & & & & & & & & & & & & & & & & & & &表1-1 能源消耗量与产量数据缺失值分析
SPSS提供了填充缺失值的工具,点击菜单栏&&--&&&,即可以使用软件提供的几种填充缺失值工具,包括序列均值,临近点中值,临近点中位数等。结合本次实习数据的具体情况,我们不使用SPSS软件提供的替换缺失值工具,主要是手动将缺失值用零值来代替。
1.1.3 描述性数据汇总
描述性数据汇总技术用来获得数据的典型性质,我们关心数据的中心趋势和离中趋势,根据这些统计值,可以初步得到数据的噪声和离群点。中心趋势的量度值包括:均值(mean),中位数(median),众数(mode)等。离中趋势量度包括四分位数(quartiles),方差(variance)等。
SPSS提供了详尽的数据描述工具,单击菜单栏的&&--&&&--&&&,将弹出如图2-4所示的对话框,我们将所有变量都选取到,然后在选项中勾选上所希望描述的数据特征,包括均值,标准差,方差,最大最小值等。由于本次数据的单位不尽相同,我们需要将数据标准化,同时勾选上&将标准化得分另存为变量&。
图1-4 描述性数据汇总
得到如表1-2所示的描述性数据汇总。
能源消费总量
煤炭消费量
焦炭消费量
原油消费量
汽油消费量
煤油消费量
柴油消费量
燃料油消费量
天然气消费量
电力消费量
燃料油产量
天然气产量
有效的 N (列表状态)
表1-2 描述性数据汇总
标准化后得到的数据值,以下的回归分析将使用标准化数据。如图1-5所示:
图1-5 数据标准化
我们还可以通过描述性分析中的&&来得到各个变量的众数,均值等,还可以根据这些量绘制直方图。我们选取个别变量(能源消费总量)的直方图,可以看到我们因变量基本符合正态分布。如图1-6所示:
图1-6能源消费总量
1.2 回归分析
&我们本次实验主要考察地区能源消费总额(因变量)与煤炭消费量、焦炭消费量、原油消费量、原煤产量、焦炭产量、原油产量之间的关系。以下的回归分析所涉及只包括以上几个变量,并使用标准化之后的数据。
1.2.1 参数设置
单击菜单栏&&--&&&--&&&,将弹出如图1-7所示的对话框,将通过选择因变量和自变量来构建线性回归模型。因变量:标准化能源消费总额;自变量:标准化煤炭消费量、标准化焦炭消费量、标准化原油消费量、标准化原煤产量、标准化焦炭产量、标准化原油产量。自变量方法选择:进入,个案标签使用地名,不使用权重最小二乘法回归分析&即WLS权重为空。
图1-7选择线性回归变量还需要设置统计量的参数,我们选择回归系数中的&&和其他项中的&&。选中估计可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta。选中模型拟合度复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:R,R2和调整的R2, 标准误及方差分析表。如图1-8所示:
图1-8 设置回归分析统计量
3.在设置绘制选项的时候,我们选择绘制标准化残差图,其中的正态概率图是rankit图。同时还需要画出残差图,Y轴选择:ZRESID,X轴选择: ZPRED。如图1-9所示:
图1-9 设置绘制
左上框中各项的意义分别为:
&DEPENDNT&因变量
&ZPRED&标准化预测值
&ZRESID&标准化残差
&DRESID&删除残差
&ADJPRED&调节预测值
&SRESID&学生化残差
&SDRESID&学生化删除残差 & & & & &
4. 许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析,&保存&按钮就是用来存储中间结果的。可以存储的有:预测值系列、残差系列、距离(Distances)系列、预测值可信区间系列、波动统计量系列。本次实验暂时不保存任何项。
5. 设置回归分析的一些选项,有:步进方法标准单选钮组:设置纳入和排除标准,可按P值或F值来设置。在等式中包含常量复选框:用于决定是否在模型中包括常数项,默认选中。如图1-10所示:
图1-10& 设置选项
1.2.2 结果输出与分析
在以上选项设置完毕之后点击确定,SPSS将输出一系列的回归分析结果。我们来逐一贴出和分析,并根据它得到最后的回归方程以及验证回归模型。
表1-3所示,是回归分析过程中输入、移去模型记录。具体方法为:enter(进入)
&& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & &输入/移去的变量
&& & & & & & & & & & & & & & & & & & & & & & & & 输入/移去的变量
输入的变量
移去的变量
Zscore(原油产量), Zscore(原煤产量), Zscore(焦炭消费量), Zscore(原油消费量), Zscore(煤炭消费量), Zscore(焦炭产量)
&表1-3 输入的变量
&& & 2. &表1-4所示是模型汇总,R称为多元相关系数,R方(R2)代表着模型的拟合优度。我们可以看到该模型是拟合优度良好。
&& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & &模型汇总
标准 估计的误差
表1-4 模型汇总
&& & 3.表1-5所示是离散分析。,F的值较大,代表着该回归模型是显著。也称为失拟性检验。
&&&&&&&& 表1-5 离散分析
&& & &4.&表1-6所示的是回归方程的系数,根据这些系数我们能够得到完整的多元回归方程。观测以下的回归值,都是具有统计学意义的。因而,得到的多元线性回归方程:Y=0.008+1.061x1+0.087 x2+0.157 x3-0.365 x4-0.105 x5-0.017x6&
(x1为煤炭消费量,x2为焦炭消费量,x3为原油消费量,x4为原煤产量,x5为原炭产量,x6为原油产量,Y是能源消费总量)
结论:能量消费总量由主要与煤炭消费总量所影响,成正相关;与原煤产量成一定的反比。
&& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & &系数
&& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & 系数
非标准化系数
Zscore(煤炭消费量)
Zscore(焦炭消费量)
Zscore(原油消费量)
Zscore(原煤产量)
Zscore(焦炭产量)
Zscore(原油产量)
表1-6回归方程系数
&& & &5. &模型的适合性检验,主要是残差分析。残差图是散点图,如图1-11所示:
图1-11残差图
可以看出各散点随机分布在e=0为中心的横带中,证明了该模型是适合的。同时我们也发现了两个异常点,就是广东省和四川省,这种离群点是值得进一步研究的。
还有一种残差正态概率图(rankit图)可以直观地判断残差是否符合正态分布。如图1-12所示:
图1-12 rankit(P-P)图
它的直方图如图1-13所示:
图1-13 rankit(直方)图
阅读(...) 评论()
本作品由创作,采用进行许可。

我要回帖

更多关于 spss面板数据回归分析 的文章

 

随机推荐