为什么选这个回归方程 求数学学霸用数学公式写情书

应用回归分析(PPT530)
应用回归分析Applied Regression Analysis教材何晓群,刘文卿:《应用回归分析》第二版, 中国人民大学出版社,2007年 统计软件SPSS 13.0Statistical Package for the Social Science 章节 目录第1章 第2章 第3章 第4章 第5章 第6章 第7章 第8章 第9章 回归分析概述 一元线性回归 多元线性回归 违背基本假定的情况 自变量选择与逐步回归 多重共线性的情形及其处理 岭回归 非线性回归 含定性变量的回归模型 第1章 回归分析概述1 .1 变量间的统计关系1 .2 回归方程与回归名称的由来1 .3 回归分析的主要内容及其一般模型1 .4 建立实际问题回归模型的过程1 .5 回归分析应用与发展述评 思考与练习 1 .1 变量间的统计关系函数关系?商品的销售额与销售量之间的关系y = px?圆的面积与半径之间的关系S=?R2?原材料消耗额与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系y = x1 x2 x3 1 .1 变量间的统计关系y(万元)00 00 0 0 1 2 3y = 1000x45 6 x(万辆)图1 . 1 函数关系图 1 .1 变量间的统计关系相关关系的例子?子女身高 (y)与父亲身高(x)之间的关系?收入水平(y)与受教育程度(x)之间的关系 ?粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之 间的关系 ?商品的消费量(y)与居民收入(x)之间的关系?商品销售额(y)与广告费支出(x)之间的关系 1 .1 变量间的统计关系yx 图 1. 2 y 与x 非确定性关系图 ? 对变量间统计依赖关系的考察主要是通过相关 分析(correlation analysis)或回归分析 (regression analysis)来完成的正相关 线性相关 统计依赖关系 不相关 相关系数: 有因果关系 无因果关系 回归分析 相关分析 负相关 ? 1 ? ? XY ? 1 正相关 非线性相关 不相关 负相关 ? 注意C ①不线性相关并不意味着不相关。 C ②有相关关系并不意味着一定有因果关系。 C ③回归分析/相关分析研究一个变量对另一 个(些)变量的统计依赖关系,但它们并不 意味着一定有因果关系。 C ④相关分析对称地对待任何(两个)变量, 两个变量都被看作是随机的。回归分析对变 量的处理方法存在不对称性,即区分应变量 (被解释变量)和自变量(解释变量):前 者是随机变量,后者不是。 ? 回归分析构成计量经济学的方法论基础, 其主要内容包括:C (1)根据样本观察值对经济计量模型参数 进行估计,求得回归方程; C (2)对回归方程、参数估计值进行显著性 检验; C (3)利用回归方程进行分析、评价及预测。 1 .2 回归方程与回归名称的由来英国统计学家F.Galton(年)。 F.Galton和他的学生、现代统计学的奠基者之一 K.Pearson(年)在研究父母身高与其子女 身高的遗传问题时,观察了1 078对夫妇,? y ? 33.73 ? 0.516 x成年儿子身高 父母平均身高 1 .3 回归分析的主要内容及其一般模型? ?一元线性回归 ?线性回归?多元线性回归 ? ? ?多个因变量与多个自变 ? 量的回归 ? ? 归模型基本假设的合理 性 ?讨论如何从数据推断回 ? ?当基本假设不成立时如 ? 何对数据进行修正 ? ?回归诊断? 果 ? ?判定回归方程拟合的效 ? ?选择回归函数的形式 ? ? ? ?自变量选择的准则 回归变量的选择? ? 回归分析? ?逐步回归分析方法 ? ?岭回归 ? ? ?参数估计方法的改进?主成分回归 ? ?偏最小二乘法 ? ? ? ?一元非线性回归 ? ? 非线性回归?分段回归 ? ?多元非线性回归 ? ? ? ? 况 ?自变量含定性变量的情 含有定性变量的回归 ? ? 况 ?因变量是定性变量的情 ? 回归分析的一般形式:y ? f ( x1 , x 2 , x p ) ? ?? 随机误差项主要包括下列因素: C在解释变量中被忽略的因素的影响;C变量观测值的观测误差的影响;C模型关系的设定误差的影响;C其他随机因素的影响。回归模型研 究的问题? 1 .4 建立实际问题回归模型的过程实际问题 设置指标变量 收集整理数据 构造理论模型 估计模型参数 模型 检验YN 修改模型运用 经济因素分析 经济变量控制 经济决策预测 1 .5 回归分析应用与发展述评从高斯提出最小二乘法算起,回归分析已经有200 年的历史。 从1969年设立诺贝尔经济学奖以来,已有近50位 学者获奖,其中绝大部分获奖者是统计学家、计量经 济学家、数学家。他们对统计学及回归分析方法的应 用都有娴熟的技巧。 第2章 一元线性回归2 .1 2 .2 2 .3 2 .4 2 .5 2 .6 2 .7 2 .8 一元线性回归模型 参数β0、β1的估计 最小二乘估计的性质 回归方程的显著性检验 残差分析 回归系数的区间估计 预测和控制 本章小结与评注 2 .1 一元线性回归模型例2 .1 表2.1列出了15起火灾事故的损失及 火灾发生地与最近的消防站的距离。表2.1距消防站离 x(km) 火灾损失 y(千元) 距消防站离 x(km) 火灾损失 y(千元) 3.4 26.2 2.6 19.6 1.8 17.8 4.3 31.3火灾损失表4.6 31.3 2.1 24.0 2.3 23.1 1.1 17.3 3.1 27.5 6.1 43.2 5.5 36.0 4.8 36.4 0.7 14.1 3.8 26.1 3.0 22.3 2 .1 一元线性回归模型例2.2 全国人均消费金额记作y(元);人均国民收入记为x(元)表2.2年份 人均国民收 入(元) 82 85 88
525 580 692 853 956 12人均国民收入表人均消费金 额(元) 234.75 259.26 280.58 305.97 347.15 433.53 481.36 545.40 687.51 756.27 92 95 98 年份 人均国民 收入(元) 87 54 92 人均消费 金额(元) 797.08 890.66 3.22 4.59 9.36 2958.18 2 .1 一元线性回归模型一元线性回归模型 y=β0+β1x+ε? E (? ) ? 0 ? var(? ) ? ? 2 ?回归方程E(y|x)=β0+β1x 2 .1 一元线性回归模型样本观测值(x1,y1),(x2,y2),…,(xn,yn) 样本模型 yi=β0+β1xi+εi,? E (? i ) ? 0 ? var(? i ) ? ? 2 ?i=1,2,…,ni ? 1,2 ,? ,n回归方程E(yi)=β0+β1xi ,var(yi)=σ2,经验回归方程? ? ? y ? ? 0 ? ?1 x 2 .2 参数β0、β1的估计一、普通最小二乘估计(Ordinary Least Square Estimation,简记为OLSE)最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小? ? ? ? Q ( ? 0 , ?1 ) ? ? ( yi ? ? 0 ? ?1 xi ) 2i ?1n? min? 0 , ?1?(yi ?1ni? ? 0 ? ?1 xi ) 2? ? ? yi ? ? 0 ? ?1 xi 称为yi的回归拟合值,简称回归值或拟合值? ei ? yi ? yi称为yi的残差 2 .2 参数β0、β1的估计y(xn , yn) ? ? ? (x2 , y2) ? ? ? (x1 , y1)? ? ? y ? ?0 ? ?1x?}? ( x i , y i)? ei = yi-^ yix 2 .2 参数β0、β1的估计n ? ?Q ? ? ? ?2? ( yi ? ? 0 ? ?1 xi ) ? 0 ? ? ?? 0 ? 0 ? ? 0 i ?1 ? ? n ?Q ? ? ? ? ?2? ( yi ? ? 0 ? ?1 xi ) xi ? 0 ? ? ?? ?1 ? ?1 i ?1 ? 1?n ?? ei ? 0 ? i ?1 ?n ? xe ?0 ?? i i ? i ?1经整理后,得正规方程组n n ? ? ? n? 0 ? (? xi ) ?1 ? ? yi ? ? i ?1 i ?1 ? n n n ?( x ) ? ? ( x 2 ) ? ? x y ? ? ?? i 0 ? i 1 ? i i i ?1 i ?1 ? i ?1 2 .2 参数β0、β1的估计得OLSE 为? ? ?? 0 ? y ? ?1 x ? n ? ? ( x ? x )( yi ? y ) ?? ? i ?1 ? i ?1 n ? ? ( xi ? x ) 2 ? ? i ?1 ?n n 2 i ?1nLxx ? ? ( xi ? x ) ? ? xi2 ? n( x ) 2记i ?1Lxy ? ? ( xi ? x )( yi ? y ) ? ? xi yi ? n x yi ?1 i ?1n? ? ?? 0 ? y ? ?1 x ? ?? ??1 ? Lxy / Lxx ? 2 .2 参数β0、β1的估计续例2.149.2 396 .2 x? ? 3.28 , y ? ? 26.413 15 15Lxx ? ? xi2 ? n( x ) 2i ?1 n? 196 .16 ? 15(3.28) 2 ? 34 .784Lxy ? ? xi yi ? n x yi ?1 n? 1470 .65 ?
? 171 .114? ? ?? 0 ? y ? ?1 x ? 26.413 ? 4.919 ? 3.28 ? 10.279 ? ?? ??1 ? Lxy / Lxx ? 171 .114 / 34.784 ? 4.919 ?? y ? 10.279 ? 4.919 x回归方程 2 .2 参数β0、β1的估计二、最大似然估计 连续型:是样本的联合密度函数: 离散型:是样本的联合概率函数。 似然函数并不局限于独立同分布的样本。似然函数在假设εi~N(0,σ2)时,由(2.10)式知yi服从如下正态分布:yi ~ N ( ? 0 ? ?1 xi , ? 2 ) 2 .2 参数β0、β1的估计二、最大似然估计L ( ? 0 , ?1 , ? ) ? ? f i ( y i )2 i ?1 ny1,y2,…,yn? 的似然函数为:? (2?? )2?n 2exp{?1 2? 2[ yi ? ( ? 0 ? ?1 xi )]2 } ?i ?1nn 1 ln ?L ? ? ? ln(2?? 2 ) ? 2 2? 2?[ yi ?1n? ( ? 0 ? ?1 xi )]2 i对数似然 函数为:与最小二乘原理完全相同 2 .3 最小二乘估计的性质一、线性? ? ? 0、?1是y1,y2,…,ynn? ?1 ?? (x ? x) yi ?1 n i的线性函数 :i( xi ? x ) 2 ?i ?1??i ?1nxi ? x ( xi ? x ) 2 ?i ?1 nyi 2 .3 最小二乘估计的性质二、无偏性? E ( ?1 ) ? ?i ?1 nnxi ? x ( x j ? x )2 ?j ?1 n其中用到E ( yi )? (x ? x) ? 0 ? (x ? x)x ? ? (xiiii? x )2??i ?1xi ? x ( x j ? x )2 ?j ?1 n( ? 0 ? ?1 xi )? ?1 2 .3 最小二乘估计的性质? ? 三、?0、?1 的方差? n ? var(?1 ) ? ? ? ? i ?1 ? ? xi ? x ( x j ? x )2 ?j ?1 n? ? var( y ) ? i ? ? ?2?2( x j ? x )2 ?j ?1 n?1 ? 2 ( x )2 ? )?? ? var(? 0 ? 2? ? n ? ( xi ? x ) ? ? ?? ,? ) ? ? x ? 2 cov(? 0 ?1 Lxx 2 .3 最小二乘估计的性质? ? 三、?0、?1 的方差1 ( x )2 2 ? ?0 ~ N (?0 , ( ? )? ) n Lxx在正态假设下? ?1 ~ N ( ?1 ,?2Lxx)Gauss?Markov条件?E(εi ) ? 0, i ? 1, 2, ? , n ? ?σ 2 , i ? j ? ?cov(εi ,ε j ) ? ?0 , i ? j ? ?(i ,j ? 1, 2,? ,n) 2.4 回归方程的显著性检验一、t 检验原假设: H0 :β1=0 对立假设: H1 :β1≠0由? ?1 ~ N ( ?1 ,?2Lxx)当原假设H0 :β1=0成立时有:? ?1 ~ N ( 0 ,?2Lxx) 2.4 回归方程的显著性检验一、t 检验构造t 统计量t?? ?1 ? ? 2 Lxx? ?1 Lxx ? ? ?其中1 n 2 1 n ? ? ? yi ? yi ?2 ? ? ei ? ? n?2? n ? 2 i ?1 i ?12 2.4 回归方程的显著性检验二、用统计软件计算1.例2.1 用Excel软件计算 什么是P 值?(P-value)? ? P 值即显著性概率值 Significence Probability Value 是当原假设为真时得到比目前的 样本更 极端的样本的 概率,所谓极端就是与原 假设相背离 它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显 著性水平? 双侧检验的P 值?/ 2 ?/ 2 拒绝1/2 P 值拒绝1/2 P 值临界值计算出的样本统计量H0值临界值t计算出的样本统计量 左侧检验的P 值抽样分布拒绝域 置信水平?1-?P值临界值 计算出的样本统计量H0值样本统计量 右侧检验的P 值抽样分布置信水平 拒绝域 1-??P值H0值临界值 计算出的样本统计量 利用 P 值进行检验的决策准则若p-值 ? ?,不能拒绝 H0 若p-值 < ?, 拒绝 H0 双侧检验p-值 =2×单侧检验p-值 2.4 回归方程的显著性检验二、用统计软件计算2. 例2.1用SPSS软件计算b Va riables Entered/Re mov edModel 1Va riables En tered a xVa riables Re moved .Metho d En tera. Al l requested variables entered. b. De pendent V ariable: yMode l Summ ary Mode l 1 R R Square a .961 .923 Ad justed R Square .918 St d. Error of the E stim ate 2.316 35a. Predictors: (Constant), x 2.4 回归方程的显著性检验二、用统计软件计算2.用SPSS软件计算Sum of Squares 841.766 69.751 911.517 ANOVA b df 1 13 14 Mean Square 841.766 5.365 F 156.886 Sig. .000aModel 1Regression Residual Totala. Predictors: (Constant), X b. Dependent Variable: YCoefficients a Standardi zed Coefficie nts Beta .961Model 1(Constant) XUnstandardized Coefficients B Std. Error 10.278 1.420 4.919 .393t 7.237 12.525Sig. .000 .000a. Dependent Variable: Y 2.4 回归方程的显著性检验三、F检验 平方和分解式? i ? y ) 2 ? ? ( yi ? yi ) 2 ? ? ( yi ? y ) ? ? ( y2 i ?1 i ?1 i ?1nnnSST = SSR + SSE 构造F检验统计量SSR / 1 F? SSE /(n ? 2) 2.4 回归方程的显著性检验三、F检验 一元线性回归方差分析表方差来源 自由度 平方和 回归 残差 1 n-2 SSR SSE均方 SSR/1 SSE/(n-2)F值P值SSR / 1 SSE /(n ? 2)P(F&F值) =P值总和n-1SST 2.4 回归方程的显著性检验四、相关系数的显著性检验r?? ( x ? x )( yi ?1 i n n 2 i ?1 i i ?1ni? y)?iLxy Lxx Lyy? (x ? x) ? ( yy? ? ?1L xx Lyy? y)2y-1&r&00&r&1(e)xx (f) 2.4 回归方程的显著性检验四、相关系数的显著性检验y r=1y r=-1(a)x(b)xyr=0y |r|&1x (c)(d)x 2.4 回归方程的显著性检验四、相关系数的显著性检验n-21 2 3 4 5 6 7 8附表1 相关系数ρ=0的临界值表n-216 17 18 19 20 21 22 235%0.997 0.950 0.878 0.811 0.754 0.707 0.666 0.6321%1.000 0.990 0.959 0.947 0.874 0.834 0.798 0.7655%0.468 0.456 0.444 0.433 0.423 0.413 0.404 0.3961%0.590 0.575 0.561 0.549 0.537 0.526 0.515 0.505n-235 40 45 50 60 70 80 905%0.325 0.304 0.288 0.273 0.250 0.232 0.217 0.2051%0.418 0.393 0.372 0.354 0.325 0.302 0.283 0.267910 11 120.6020.576 0.553 0.5320.7350.708 0.684 0.6612425 26 270.3880.381 0.374 0.3670.4960.487 0.478 0.470100125 150 2000.1950.174 0.159 0.1380.2540.228 0.208 0.1811314 150.5140.497 0.4820.6410.623 0.6062829 300.3610.355 0.3490.4630.456 0.449300400 10000.1130.098 0.0620.1480.128 0.081 2.4 回归方程的显著性检验四、相关系数的显著性检验t?n?2 r 1? r 2Correlations用SPSS软件做相关系数的显著性检验Y 1.000 . 15 .961 .000 15 X .961 .000 15 1.000 . 15YXPearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 2.4 回归方程的显著性检验四、相关系数的显著性检验两变量间相关程度的强弱分为以下几个等级:当|r|≥0.8时,视为高度相关; 当0.5≤|r|< 0.8时,视为中度相关;当0.3≤|r|< 0.5时,视为低度相关;当|r|< 0.3时,表明两个变量之间的相关程度极弱,在实际应用中可视为不相关。 2.4 回归方程的显著性检验五、三种检验的关系 H0: ?=0t?? ?1 ? ? 2 Lxx? ?1 Lxx ? ? ?H0: ?=0t?n?2 r 1? r 2H0: 回归无效SSR / 1 F? SSE /(n ? 2) 2.4 回归方程的显著性检验六、样本决定系数r2 ? SSR ? SST ( yi ? y ) 2 ? ? ( yi ? y ) 2 ?i ?1 i ?1 n n可以证明SSR r ? ? ? (r ) 2 SST Lxx Lyy2L2 xy 2.5 残差分析一、残差概念与残差图 残差? ? ? ei ? yi ? yi ? yi ? ? 0 ? ?1 xi误差项? i ? yi ? ? 0 ? ?1 xi残差ei是误差项?i的估计值。 2.5 残差分析一、残差概念与残差图e0e0x(a)xe1 3 2 4(b)e05 67 80x(c)(d)x 2.5 残差分析一、残差概念与残差图4 3 2 1 0 -1 -2 -3 -4 0 1 2 3 4 5 6 7X图 2.6 火灾损失数据残差图 2.5 残差分析二、残差的性质性质1 E (ei)=0? 证明: E (ei ) ? E ( yi ) ? E ( yi ) ? ? ? ( ? 0 ? ?1 xi ) ? E ( ? 0 ? ?1 xi ) ?0 2.5 残差分析二、残差的性质性质2? 1 ( xi ? x ) 2 ? 2 var(ei ) ? ?1 ? ? ?? Lxx ? ? n ? (1 ? hii ) ? 21 ( xi ? x ) 2 其中 hii ? ? n Lxx称为杠杆值 2.5 残差分析二、残差的性质25 20 15y10 5 0 0 20 40x 60? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 2.5 残差分析二、残差的性质性质3. 残差满足约束条件:?ei ?1 n i ?1ni?0 ?0?xei i 2.5 残差分析三、改进的残差 标准化残差ei ZREi ? ? ?ei SREi ? ? ? 1 ? hii学生化残差 2.6 回归系数的区间估计? ?1 ~ N ( ?1 ,t? ? ?1 ? ?1 ? ? 2 / Lxx?2Lxx)? (?1 ? ?1 ) Lxx ? ~ t (n ? 2) ? ?? ? ? ? ? ?t ? ?t ? ?1 ? ?1 ? / 2 ) ? 1?? 等价于 P( ?1 ? / 2 Lxx Lxx ? ? ? ? β1的1-α ? ?t ? ?t ( ?1 ? / 2 , ?1 ? / 2 ) 置信区间 Lxx Lxx? ? ( ?1 ? ?1 ) Lxx ? P? ? t? / 2 (n ? 2) ? ? 1 ? ? ? ? ? ? ? ? 2.7 预测和控制一、单值预测? ? ? y0 ? ? 0 ? ?1 x0? E ( y0 ) ? E ( y0 ) ? ? 0 ? ?1 x0 2.7 预测和控制二、区间预测1.因变量新值的区间预测 找一个区间(T1,T2),使得P(T1 ? y0 ? T2 ) ? 1 ? ?需要首先求出其估计值 y ? ? ? ? x ? 0 ?0 ?1 0 的分布 二、区间预测? 以下计算 y0 的方差1 因变量新值的区间预测n1 ( x ? x )( x0 ? x ) ? ? ? ? ? y0 ? ? 0 ? ?1 x0 ? y ? ?1 x ? ?1 x0 ? ? ( ? i ) yi Lxx i ?1 n1 ( xi ? x )( x0 ? x ) 2 1 ( x0 ? x ) 2 2 ? var( y0 ) ? ? ( ? ) var(yi ) ? ( ? )? Lxx n Lxx i ?1 nn从而得1 ( x0 ? x ) 2 2 ? y0 ~ N ( ? 0 ? ?1 x0 , ( ? )? ) n Lxx 二、区间预测1 ( x0 ? x ) 2 记 h00 ? ? n Lxx1 因变量新值的区间预测y0 ~ N ( ? 0 ? ?1 x0 , h00? 2 ) 则 ?? ? var( y0 ? y0 ) ? var( y0 ) ? var( y0 ) ? ? 2 ? h00? 2于是有? y0 ? y0 ~ N (0, (1 ? h00 )? )2? y0 ? y0 t? ~ t ( n ? 2) ? 1 ? h00 ? 二、区间预测1 因变量新值的区间预测? y ?y ? ? 0 ? 0 ? t (n ? 2) ? ? 1 ? ? P ? /2 ? 1 ? h00 ? ? ? ? ?y0的置信概率为1-α的置信区间为? ? y0 ? t? / 2 (n ? 2) 1 ? h00 ?y0的置信度为95%的置信区间近似为? ? y0 ? 2 ? 二、区间预测E(y0)=β0+β1x0是常数2 因变量平均值的区间估计1 ( x0 ? x ) 2 2 ? y0 ? E ( y0 ) ~ N (0, ( ? )? ) n Lxx得E(y0)的1-α的置信区间为? ? y0 ? t? / 2 (n ? 2) h00 ? 二、区间预测计算对例2.1的火灾损失数据,假设保险公司希望预测一个 距最近的消防队x0=3.5公里的居民住宅失火的损失 点估计值? y0 ? 10.278 ? 4.919 ? 3.5 ? 27.5095%区间估计 单个新值: (22.32,32.67) 平均值E(y0):(26.19,28.80)? y0 的95%的近似置信区间为? ? ( y0 ? 2? ,? ? y0 ? 2? )=(27.50-2×2.316,27.50+2×2.316) =(22.87,32.13) 三、控制问题给定y的预期范围(T1, T2),如何控制自变量x的值 才能以1-α的概率保证P(T1 ? y ? T2 ) ? 1 ? ?用近似的预测区间来确定x。如果α=0.05,则要求? ? ? y ( x) ? 2? ? T1 ? ? ? ? y ( x) ? 2? ? T2把? ? ? y ( x) ? ? 0 ? ?1 x 带入? 当?1 ? 0时,得? ? ? ? T1 ? 2? ? ? 0 T2 ? 2? ? ? 0 ?x? ? ? ? ?1 1? ? ? ? T2 ? 2? ? ? 0 T1 ? 2? ? ? 0 ?x? ? 当?1 ? 0时,得 ? ? ? ?1 1 2.8 本章小结与评注一、一元线性回归模型从建模到应用的全过程 例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元)表2.2年份 人均国民收 入(元) 82 85 88
525 580 692 853 956 12人均国民收入表人均消费金 额(元) 234.75 259.26 280.58 305.97 347.15 433.53 481.36 545.40 687.51 756.27 92 95 98 年份 人均国民 收入(元) 87 54 92 人均消费 金额(元) 797.08 890.66 3.22 4.59 9.36 2958.18 2.8 本章小结与评注二、有关回归假设检验问题1973年Anscombe构造了四组数据, 这四组数据所建的 回归方程是相同的,决定系数,F统计量也都相同,且均通过显著性检验。x 4 5 6 7 8 9 10 11 12 13 14 第一组 y 4.26 5.68 7.24 4.82 6.95 8.81 8.04 8.33 10.84 7.58 9.96 x 4 5 6 7 8 9 10 11 12 13 14 第二组 y 3.1 4.74 6.13 7.26 8.14 8.77 9.14 9.26 9.13 8.74 8.1 第三组 x 4 5 6 7 8 9 10 11 12 13 14 y 5.39 5.73 6.08 6.44 6.77 7.11 7.46 7.81 8.15 12.74 8.84 x 8 8 8 8 8 8 8 8 8 8 19 第四组 y 6.58 5.76 7.71 8.84 8.47 7.04 5.25 5.56 7.91 6.89 12.5 2.8 本章小结与评注12 10 8 6 4 2 0 0 y = 0.5001x + 3.0001 2 R = 0.666512 10 8 6 4 2 015y = 0.5x + 3.0009 2 R = 0.666251005101514 y = 0.4994x + 3. R = 0.666 10 8 6 4 2 0 0 5 1014 12 10 8 6 4 2 015y = 0.4999x + 3.0017 R2 = 0.666705101520 第三章 多元线性回归3.1 3.2 3.3 3.4 3.5 3.6 3.7 多元线性回归模型 回归参数的估计 参数估计量的性质 回归方程的显著性检验 中心化和标准化 相关阵与偏相关系数 本章小结与评注 3.1 多元线性回归模型一、多元线性回归模型的一般形式y=β0+β1x1+β2x2+…+βpxp+ε? E (? ) ? 0 ? var(? ) ? ? 2 ? 3.1 多元线性回归模型一、多元线性回归模型的一般形式对n组观测数据 (xi1, xi2,…, yi), i=1,2,…,n, 线性回归模型表示为:? y1 ? ? 0 ? ?1 x11 ? ? 2 x12 ? ? ? ? p x1 p ? ? 1 ? ? y2 ? ? 0 ? ?1 x21 ? ? 2 x22 ? ? ? ? p x2 p ? ? 2 ? ? ?? ?y ? ? ? ? x ? ? x ??? ? x ? ? 0 1 n1 2 n2 p np n ? n 3.1 多元线性回归模型一、多元线性回归模型的一般形式写成矩阵形式为:? y1 ? ? ? ? y2 ? y?? ? ? ? ? ?y ? ? n?y=Xβ +ε , 其中,?1 ? ?1 X?? ?? ?1 ? x 11 x 12 ? x1p ? ? x 21 x 22 ? x 2p ? ? ? ? ?? x n1 x n2 ? x np ? ?n?( p ?1)? ?0 ? ? ? ? ?1 ? β?? ? ? ? ? ?? ? ? p?? ?1 ? ? ? ?? 2 ? ε? ? ? ? ? ? ?? ? ? n? 3.1 多元线性回归模型二、多元线性回归模型的基本假定1. 解释变量x1,x2,…,xp是确定性变量,不是随机变量, 且要求rk(X)=p+1<n。 表明设计矩阵X中的自变量列之间不相关, X是一满秩矩阵。 3.1 多元线性回归模型二、多元线性回归模型的基本假定2 .随机误差项具有0均值和等方差,即?E (εi ) ? 0, i ? 1, 2, ?, n ? ?σ 2 , i ? j ? ?cov(εi ,ε j ) ? ?0 , i ? j ? ?(i ,j ? 1, 2, ?, n)这个假定称为Gauss-Markov条件 3.1 多元线性回归模型二、多元线性回归模型的基本假定3. 正态分布的假定条件为:?? i ~ N (0, ? 2 ) , i ? 1,2, ? , n ? ?? 1 , ? 2 , ? , ? n 相互独立用矩阵形式(3.5)式表示为:ε~N(0, ?2In) 3.1 多元线性回归模型二、多元线性回归模型的基本假定在正态假定下:y~N(Xβ, ?2In)E(y)=Xβvar(y)= ?2In ? 3.1 多元线性回归模型三、多元线性回归方程的解释y表示空调机的销售量, x1表示空调机的价格, x2表示消费者可用于支配的收入。 y=β0+β1x1+β2x2+ε E(y)=β0+β1x1+β2x2 在x2保持不变时,有??E ( y ) ? ?1 ?x1?E ( y ) ? ?2 在x1保持不变时,有? ?x2 3.1 多元线性回归模型三、多元线性回归方程的解释考虑国内生产总值GDP和三次产业增加值的关系, GDP=x1 + x2+ x3 现在做GDP对第二产业增加值x2的一元线性回归, 得回归方程? y ? 5 289 .9 ? 1.855 4 x2 3.1 多元线性回归模型年份 GDP 第一产业 增加值x1 第二产业 增加值x2第三产业 增加值x35 813.57 227.0 9 138.6 11 323.819909318 547.921 617.8 26 638.1 34 634.45 017.05 288.6 5 800.0 6 882.17 717.49 102.2 11 699.5 16 428.519949746 759.458 478.1 67 884.6 74 462.69 457.211 993.0 13 844.2 14 211.222 372.228 537.9 33 612.9 37 222.714 930.017 947.2 20 427.5 23 028.719980178 345.282 067.5 89 468.1 97 314.814 552.414 472.0 14 628.2 15 411.838 619.340 557.8 44 935.3 48 750.025 173.527 037.7 29 904.6 33 153.02002105 172.3117 390.2 136 875.916 117.316 928.1 20 768.152 980.261 274.1 72 387.236 074.839 188.0 43 720.6 3.1 多元线性回归模型三、多元线性回归方程的解释建立GDP对x1和x2的回归,得二元回归方程? y =2 914.6+0.607 x1+1.709 x2你能够合理地 解释两个回归 系数吗 ? 3.2 回归参数的估计一、回归参数的普通最小二乘估计最小二乘估计要寻找n? ? ? ? ? ? 0,?1,? 2, ,? p , 使得? ? ? ? ? ? ? ? Q( ? 0 , ?1 , ? 2 , ? , ? p ) ? ? ( yi ? ? 0 ? ?1 xi1 ? ? 2 xi 2 ? ? ? ? p xip ) 2i ?1?? 0 , ?1 , ? 2 ,?, ? pmin?(yi ?1ni? ? 0 ? ?1 xi1 ? ? 2 xi 2 ? ? ? ? p xip ) 2 3.2 回归参数的估计一、回归参数的普通最小二乘估计n ? ?Q ? ? ? ? ? ?2? ( yi ? ? 0 ? ?1 xi1 ? ? 2 xi 2 ? ? ? ? p xip ) ? 0 ? ? i ?1 ? ?? 0 ? 0 ? ? 0 ? n ?Q ? ? ? ? ? ? ? ?2? ( yi ? ? 0 ? ?1 xi1 ? ? 2 xi 2 ? ? ? ? p xip ) xi1 ? 0 ? ??1 ?1 ? ?1 i ?1 ? n ? ?Q ? ? ? ? ? ? ? ?2? ( yi ? ? 0 ? ?1 xi1 ? ? 2 xi 2 ? ? ? ? p xip ) xi 2 ? 0 i ?1 ? ?? 2 ? 2 ? ? 2 ??? ? n ? ?Q ? ? ? ? ? ? ? ?2? ( yi ? ? 0 ? ?1 xi1 ? ? 2 xi 2 ? ? ? ? p xip ) xip ? 0 i ?1 ? ?? p ? p ? ? p ? ? 3.2 回归参数的估计一、回归参数的普通最小二乘估计经整理后得用矩阵形式表示的正规方程组移项得当?X?X ??1?) X? (y ? Xβ ? 0 ? X ? Xβ? X ?y存在时,即得回归参数的最小二乘估计为:? β? (X ? X)-1 X ?y 3.2 回归参数的估计二、回归值与残差? ? ? ? ? 称 yi ? ? 0 ? ?1 xi1 ? ? 2 xi 2 ? ? ? ? p xip 为回归值? ? y ? Xβ? X(X ? X)-1 X ?yH ? X(X? X )-1 X?称为帽子矩阵,其主对角线元素记为hii ,则 3.2 回归参数的估计二、回归值与残差tr( H ) ? ? hii ? p ? 1i ?1 n此式的证明只需根据迹的性质tr(AB)=tr(BA),因而tr(H)? tr(X X ? X )-1 X ?) ? tr(X ?X(X ? X )-1 ) ( ? tr(Ip ?1 ) ? p ? 1 3.2 回归参数的估计二、回归值与残差 ? e ? y ? y ? y ? Hy ?(I - H)ycov(e,e)=cov((I-H)Y,(I-H)Y) =(I-H)cov(Y,Y)(I-H)′=σ 2(I-H)In(I-H)′=σ 2(I-H)得 D(ei)=(1-hii)σ2,i=1,2,…,n 3.2 回归参数的估计二、回归值与残差得 E (? ei2 ) ? ? D(ei ) ? (n ? p ? 1)? 2i ?1 i ?1n 1 1 1 ? ? ? SSE ? (e?e)? ei2 ? n ? p ?1 n ? p ?1 n ? p ? 1 i ?1 2nn是σ2的无偏估计 3.2 回归参数的估计三 、回归参数的最大似然估计y~N(Xβ ,σ 2In)似然函数为L ? (2? )?n 2?? ?2 ?n 2exp( ?1 2?2(y - Xβ ?(y - Xβ ) ))n n 1 2 ln L ? ? ln(2? ) ? ln(? ) ? 2 (y - Xβ ?(y - Xβ ) ) 2 2 2?等价于使(y-Xβ )′(y-Xβ )达到最小,这又完全与 OLSE一样 3.2 回归参数的估计例3.1?国际旅游外汇收入是国民经济发展的重要组成 部分,影响一个国家或地区旅游收入的因素包括自然、文化、 社会、经济、交通等多方面的因素,本例研究第三产业对旅 游外汇收入的影响。《中国统计年鉴》把第三产业划分为12 个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管 理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮 业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和 社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺 术,x11党政机关,x12其他行业。采用1998年我国31 个省、 市、自治区的数据,以国际旅游外汇收入(百万美元)为因 变量y,以如上12 个行业为自变量做多元线性回归,数据见 表3.1,其中自变量单位为亿元人民币。 3.2 回归参数的估计a CoefficientsMode l 1(Constant) x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12Un standardize d Co efficients B St d. Error -205.3 88 117.0 19 -1.438 22.91 3 2.622 18.59 9 3.297 2.468 -.946 1.298 -5.521 4.514 4.068 3.960 4.162 5.079 -15.40 4 10.83 5 17.33 8 8.374 9.155 10.16 8 -10.53 6 5.622 1.370 5.006St andardized Co efficients Be ta -.012 .023 .749 -.312 -.963 .760 .446 -.520 1.038 .221 -.780 .042t -1.755 -.063 .141 1.336 -.729 -1.223 1.027 .819 -1.422 2.071 .900 -1.874 .274Si g. .096 .951 .889 .198 .476 .237 .318 .423 .172 .053 .380 .077 .787a. De pendent V ariable: y 3.3 参数估计量的性质性质1? β 是随机向量y的一个线性变换。? ?(X ? X )-1 X ?y β性质2? β 是β的无偏估计。? E(β) ? E ((X? X )-1 X?y) ?(X? X )-1 X?E(y) ?(X? X )-1 X?E(Xβ?ε ) ?(X? X )-1 X? Xβ?β 3.3 参数估计量的性质? 性质 3 D(β)=σ 2(X′X)-1 ?D( ? ) ? cov(? ,? ) β ββ ? ? ? ? ? ? E((β? E β)(β? E β)? ) ? E((β?β β?β ? ) )( ? )?????? ? ? ?1 ? ?1 ? E? ?X X ? X y ?β ?X?X ? X?y ?β ? ? ? ? ? ? ?1 ? ?X ??1 X ?(Xβ?ε ?β ? ? E ? ?X X ? X (Xβ?ε ?β ?X ) ) ? ? ? ?1 ?1 ? E ( ? ?X ?X ? X ?ε-β ( ? ?X ?X ? X ?ε-β ? β )β )? ?????????? ? E ?X ?X ? X ?εε X ?X ?X ??1??1? ? ?X?X ??1X ?E( ε )X?X ?X ? ε ??1?1 ?1 ?1 ? ?X ?X ? X ?E(? 2In )X ?X ?X ? ? ? 2 ?X ?X ? 3.3 参数估计量的性质当p=1时? ? n X ?X ? ? n ? ? ? xi ? ? i ?1? ? xi ? i ?1 ? n ? 2 ? xi ? ? i ?1 ?n? n 2 ? ? xi 2 ? ? i ?1 (X ?X ) ?1? 2 ? X ?X ? n ? ? ? xi ? ? i ?1? ? ?2 n 2 ? ? xi ? ? ? xi i ?1 ? ? nLxx i ?1 ? ?? n ? ? ? x ?2 ? ? ? Lxx ?nx 2 ? ? Lxx?2L xx? ? ? ? ? ? ? 3.3 参数估计量的性质性质4 Gauss-Markov定理? ? ? ? ? 预测函数 y0 ? ? 0 ? ?1 x10 ? ? 2 x20 ? ? ? ? p x p 0? 是β 的线性函数Gauss-Markov定理 在假定E(y)=Xβ, D(y)=σ2In时,β的任一线性函 ?? 数 C的最小方差线性无偏估计(Best Lnear ? Unbiased Estimator简记为BLUE)为c′,其中c是任一 β ? p+1维向量, 是β的最小二乘估计。 β 3.3 参数估计量的性质第一,取常数向量c的第j(j=0,1,…,n)个分量为1,其 余分量为0,这时G-M定理表明最小二乘估计是βj的最小方 差线性无偏估计。 第二,可能存在y1, y2 , …, yn的非线性函数,作为C?? 的 ? 无偏估计,比最小二乘估计 C ?? 的方差更小。 第三,可能存在 C?? 的有偏估计量,在某种意义(例如 ? 均方误差最小)下比最小二乘估计C ?? 更好。C ? 第四,在正态假定下, ?? 是 C?? 的最小方差无偏估计。 也就是说,既不可能存在y1, y2 , …, yn的非线性函数,也不 ? 可能存在y1, y2 , …, yn的其它线性函数,作为C ?? 的无偏估 计,比最小二乘估计 C?? 方差更小。 3.3 参数估计量的性质? 性质5 cov( β ,e)=0 ? 此性质说明 β 与e不相关,在正态假定下等价于与e独立, 从而与 SSE ? e?e 独立。?性质6(1) (2)在正态假设 y ~ N ( Xβ, I n? ) 时2? β ~ N (β, ( X?X ?1 )? 2 ) 时SSE / ? 2 ~ ? 2 (n ? p ? 1) 3.4 回归方程的显著性检验一、F检验 H0:β1=β2=…=βp=0?(yi ?1ni? ? ? y ) ? ? ( yi ? y ) ? ? ( yi ? yi ) 22 2 i ?1 i ?1nnSST = SSR + SSESSR / p F? 当H0成立时服从 F ( p, n ? p ? 1) SSE /(n ? p ? 1) 3.4 回归方程的显著性检验一、F检验方差来源 自由度 平方和回归 残差 总和 p n-p-1 n-1 SSR SSE SST均方SSR/p SSE/(n-p-1)F值P值P(F&F值) =P值SSR / p SSE /(n ? p ? 1)ANOVA b Model 1 Sum of Squares 58039 df 12 18 30 Mean Square
F 10.482 Sig. .000aRegression Residual Totala. Predictors: (Constant), X12, X10, X1, X2, X4, X6, X11, X3, X8, X9, X7, X5 b. Dependent Variable: Y 3.4 回归方程的显著性检验二、回归系数的显著性检验 H0j:βj=0, j=1,2,…,p? β ~N(β,σ2(X'X)-1)记 (X'X)-1=(cij) i,j=0,1,2,… ,p 构造t统计量其中 ? ? ?tj ?? ?j ? c jj ?n 1 ? ? yi ? yi ?2 ? n ? p ? 1 i ?1n 1 ei2 ? ? n ? p ? 1 i ?1 3.4 回归方程的显著性检验二、回归系数的显著性检验 (剔除x1)Coefficients Unstandardized Coefficients B Std. Error -204.406 112.889 2.406 17.793 3.386 1.968 -.955 1.255 -5.568 4.333 4.096 3.829 4.012 4.370 -15.120 9.584 17.175 7.747 9.488 8.442 -10.692 4.911 1.352 4.865 Standardized Coefficients Beta .021 .769 -.316 -.971 .765 .430 -.510 1.028 .229 -.792 .041(Constant) X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12t -1.811 .135 1.720 -.761 -1.285 1.070 .918 -1.578 2.217 1.124 -2.177 .278Sig. .086 .894 .102 .456 .214 .298 .370 .131 .039 .275 .042 .784 3.4 回归方程的显著性检验二、回归系数的显著性检验Coefficients Unstandardized Coefficients B Std. Error -201.681 102.070 3.618 .813 -21.615 7.345 27.854 4.232 -17.253 2.779 Standardized Coefficients Beta .822 -.729 1.667 -1.278(Constant) X3 X8 X9 X11t -1.976 4.449 -2.943 6.582 -6.209Sig. .059 .000 .007 .000 .000 3.4 回归方程的显著性检验二、回归系数的显著性检验从另外一个角度考虑自变量xj的显著性。 y对自变量x1,x2,…,xp线性回归的残差平方和为SSE,回归 平方和为SSR,在剔除掉xj后,用y对其余的p-1个自变量 做回归,记所得的残差平方和为SSE(j),回归平方和为 SSR(j),则 自变量xj对回归的贡献为ΔSSR(j)=SSR-SSR(j), 称为xj的偏回归平方和。由此构造偏F统计量 3.4 回归方程的显著性检验二、回归系数的显著性检验Fj ??SSR( j ) / 1 SSE /(n ? p ? 1)当原假设H0j :β j=0成立时,(3.42)式的偏F统计量 Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式 的t检验是一致的,可以证明Fj=tj2 3.4 回归方程的显著性检验三、回归系数的置信区间tj ? ? ?j ??j ? c jj ? ~ t (n ? p ? 1)可得βj的置信度为1-α的置信区间为:? ? ? ? ( ? j ? t? / 2 c jj ? , ? j ? t? / 2 c jj ? ) 3.4 回归方程的显著性检验四、拟合优度 决定系数为:R2 ? SSR SSE ? 1? SST SSTy关于x1,x2,…,xp的样本复相关系数R? R ?2SSR SSTAd justed R Square .791 St d. Error of the Estim ate 304.8 0378Mode l Summ ary Mode l 1 R R Square a .935 .875a. Predictors: (Constant), x12, x10, x1, x2, x4, x6, x11, x3, x8, x9, x7, x5 3.5 中心化和标准化一、中心化? ? ? ? ? 经验回归方程 y ? ? 0 ? ?1 x1 ? ? 2 x2 ? ? ? ? p x p经过样本中心 ( x1 , x2 ,?, y ) 将坐标原点移至样本中心,即做坐标变换:? xij ? xij ? x j ,yi? ? yi ? y? ? ? ? ? 回归方程转变为: y? ? ?1 x1 ? ? 2 x2 ? ? ? ? p x?p ?? ? ? ? 回归常数项为 ? 0 ? y ? ?1 x1 ? ? 2 x2 ? ? ? ? p x p 3.5 中心化和标准化二、标准化回归系数当自变量的单位不同时普通最小二乘估计的回归 系数不具有可比性,例如有一回归方程为:? y ? 200 ? 2000 x1 ? 2 x2其中x1的单位是吨, x2的单位是公斤 3.5 中心化和标准化二、标准化回归系数样本数据的标准化公式为: xij ? x j yi ? y * * xij ? , yi ? L jj Lyy 得标准化的回归方程? ?* j? * ?* * ?* ? y * ? ?1* x1 ? ? 2 x2 ? ? ? ? p x* pL jj Lyy ? ? j , j ? 1, ?, p 3.5 中心化和标准化二、标准化回归系数Coefficients Unstandardized Coefficients B Std. Error -201.681 102.070 3.618 .813 -21.615 7.345 27.854 4.232 -17.253 2.779 Standardized Coefficients Beta .822 -.729 1.667 -1.278(Constant) X3 X8 X9 X11t -1.976 4.449 -2.943 6.582 -6.209Sig. .059 .000 .007 .000 .000标准化 回归系数 3.6 相关阵与偏相关系数一、样本相关阵自变量样本相关阵r? X X ?1 r12 ? r1p ? ? ? ? r21 1 ? r2p ? r?? ? ?? ? ?r r ? 1 ? ? p1 p2 ?* *? ??增广的样本相关阵为:?1 ? ? r1y ~ ? ?r r ? 2y ?? ? ? rpy ?ry1 1 r21 rp1ry2 ? ryp ? ? r12 ? r1p ? ? 1 ? r2p ? ? ? ? rp2 ? 1 ? ? 3.6 相关阵与偏相关系数一、样本相关阵YYX1 0.260X2 0.342X3 0.580X4 0.479X5 0.518X6 0.530X7 0.741X8 0.379X9 0.575X10 0.673X11 0.257X12 0.0381.000X1X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X120.2600.342 0.580 0.4791.0000.640 0.691 0.7380.6401.000 0.773 0.6580.6910.773 1.000 0.9340.7380.658 0.934 1.0000.5820.502 0.742 0.7800.5190.464 0.710 0.7430.6630.602 0.885 0.8870.6910.660 0.867 0.9260.7190.686 0.889 0.8920.1500.118 0.314 0.3480.7580.760 0.855 0.8490.3010.337 0.457 0.4370.5180.530 0.741 0.379 0.575 0.673 0.257 0.0380.5820.519 0.663 0.691 0.719 0.150 0.758 0.3010.5020.464 0.602 0.660 0.686 0.118 0.760 0.3370.7420.710 0.885 0.867 0.889 0.314 0.855 0.4570.7800.743 0.887 0.926 0.892 0.348 0.849 0.4371.0000.989 0.740 0.790 0.850 0.630 0.705 0.5150.9891.000 0.703 0.753 0.821 0.646 0.666 0.4930.7400.703 1.000 0.781 0.834 0.541 0.649 0.1900.7900.753 0.781 1.000 0.931 0.404 0.906 0.5480.8500.821 0.834 0.931 1.000 0.569 0.895 0.5330.6300.646 0.541 0.404 0.569 1.000 0.241 0.1550.7050.666 0.649 0.906 0.895 0.241 1.000 0.6130.5150.493 0.190 0.548 0.533 0.155 0.613 1.000 3.6 相关阵与偏相关系数二、偏判定系数当其他变量被固定后,给定的任两个变量之间的 相关系数,叫偏相关系数。 偏相关系数可以度量p+1个变量y,x1,x2, xp之中 任意两个变量的线性相关程度,而这种相关程度是在 固定其余p-1个变量的影响下的线性相关。 3.6 相关阵与偏相关系数二、偏判定系数偏判定系数测量在回归方程中已包含若干个自 变量时,再引入某一个新的自变量后y的剩余变差的 相对减少量,它衡量y的变差减少的边际贡献。 3.6 相关阵与偏相关系数二、偏判定系数以x1表示某种商品的销售量, x2表示消费者人均可支配收入, x3表示商品价格。 从经验上看,销售量x1与消费者人均可支配收入x2之 间应该有正相关,简单相关系数r12应该是正的。但 是如果你计算出的r12是个负数也不要感到惊讶,这 是因为还有其它没有被固定的变量在发挥影响,例 如商品价格x3在这期间大幅提高了。反映固定x3后x1 与x2相关程度的偏相关系数r12;3会是个正数。 3.6 相关阵与偏相关系数1.两个自变量的偏判定系数二元线性回归模型为:yi=β0+β1xi1+β2xi2+εi记SSE(x2)是模型中只含有自变量x2时y的残差平方和, SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。 因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:r2 y1; 2SSE( x2 ) ? SSE( x1 , x2 ) ? SSE( x2 )此即模型中已含有x2时,y与x1的偏判定系数。 3.6 相关阵与偏相关系数1.两个自变量的偏判定系数 同样地,模型中已含有x1时,y与x2的偏判定系数为:r2 y 2;1SSE( x1 ) ? SSE( x1 , x2 ) ? SSE( x1 ) 3.6 相关阵与偏相关系数2.一般情况在模型中已含有x2,…,xp时,y与x1的偏判定系数为:r2 y1; 2 ,?, p?SSE( x2 , ? , x p ) ? SSE( x1 , x2 , ? , x p ) SSE( x2 , ? , x p ) 3.6 相关阵与偏相关系数三、偏相关系数偏判定系数的平方根称为偏相关系数, 其符号与相应的回归系数的符号相同。 例3.2 研究北京市各经济开发区经济发展与招商投资的 关系,因变量y为各开发区的销售收入(百万元),选取两个 自变量, x1为截至1998年底各开发区累计招商数目, x2为招商企业注册资本(百万元)。 表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的 15个开发区的数据。 3.6 相关阵与偏相关系数三、偏相关系数北京开发区数据x1 25 20 x2 .34 y 553.96 208.55 x1 7 532 x2 671.13 2863.32 y 122.24 14006750.329.31 3357.73.12.12 34277540 187 1221160862.75 672.99 901.764647.5 224.18 538.9412028808.47520.27442.8270.12743546.182442.79 3.6 相关阵与偏相关系数三、偏相关系数偏相关系数表a CoefficientsMode l 1Un standa rdized Co efficients B St d. Erro r (Constan t) x1 x2St andardized Co efficients Be tatSi g.Co rrelations Zero-order Pa rtialPa rt-327.04 218.001 2.036 .438 .468 .123.594 .485-1.500 4.649 3.799.159 .001 .003.807 .746.802 .739.534 .436a. De pendent V ariabl e: y 3.6 相关阵与偏相关系数三、偏相关系数用y与x1做一元线性回归时,x1能消除y的变差SST的比例为ry21 ? (0.807 ) 2 ? 0.651 ? 65.1%再引入x2时,x2能消除剩余变差SSE(X1)的比例为ry22;1 ? (0.739 ) 2 ? 0.546 ? 54.6%因而自变量x1和x2消除y变差的总比例为1 ? (1 ? ry21 )(1 ? ry22;1 ) =1-(1-0.651)(1-0.546)=0.842=84.2%。这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R2 3.6 相关阵与偏相关系数三、偏相关系数对任意p个变量x1,x2,…,xp定义它们之间的偏相关系数r12;3,?, p? ?12 ? ?11 ? ? 22r12 ? r13r232 2 (1 ? r13 )(1 ? r23 )其中符号Δij表示相关阵第i行第j列元素的代数余子式 验证r12;3 ? 3.7 本章小结与评注例3.3 中国民航客运量的回归模型。 y―民航客运量(万人), x1―国民收入(亿元), x2―消费额(亿元), x3―铁路客运量(万人), x4―民航航线里程(万公里), x5―来华旅游入境人数(万人)。根据《1994年统计摘要》获得年统计数据 3.7 本章小结与评注年份 1978 y 231 x1 8 x3 8.89 x5 180.92197982298343 401 44533505821955486389 9992216.0019.53 21.82 23.27420.39570.25 776.71 792.43198386391554 744 997473659335852106044110 10857922.9126.02 27.72 32.43947.703.30 2281.951987901310609313 14384638663112429807 9571238.9137.38 47.19 50.682690.230.14 2746.201991217816557109699508155.9183.66 96.083335.652.70 3.7 本章小结与评注Corre lations y y Pe arson Correlat ion Si g. (2-tailed ) N Pe arson Correlat ion Si g. (2-tailed ) N Pe arson Correlat ion Si g. (2-tailed ) N Pe arson Correlat ion Si g. (2-tailed ) N Pe arson Correlat ion Si g. (2-tailed ) N Pe arson Correlat ion Si g. (2-tailed ) N 1 16 .989** .000 16 .985** .000 16 .227 .398 16 .987** .000 16 .924** .000 16 x1 .989** .000 16 1 16 .999** .000 16 .258 .335 16 .984** .000 16 .930** .000 16 x2 .985** .000 16 .999** .000 16 1 16 .289 .278 16 .978** .000 16 .942** .000 16 x3 .227 .398 16 .258 .335 16 .289 .278 16 1 16 .213 .428 16 .504* .046 16 x4 .987** .000 16 .984** .000 16 .978** .000 16 .213 .428 16 1 16 .882** .000 16 x5 .924** .000 16 .930** .000 16 .942** .000 16 .504* .046 16 .882** .000 16 1 16x1x2x3x4x5**. Co rrelation is sig nificant at the 0.01 level (2-t ailed). *. Co rrelation is sig nificant at the 0.05 level (2-t ailed). 3.7 本章小结与评注Mode l Summ ary Mode l 1 R R Square a .999 .998 Ad justed R Square .997 St d. Error of the Estim ate 49.49 240a. Predictors: (Constant), x5, x3, x4, x2, x1b ANOVAMode l 1Su m of Sq uares Re gression
Re sidual 2 To tal dfMean Square F 5
Si g. .000 aa. Predictors: (Constant), x5, x3, x4, x2, x1 b. De pendent Variable : y 3.7 本章小结与评注a CoefficientsMode l 1(Constant) x1 x2 x3 x4 x5Un standardize d Co efficients B St d. Error 450.9 09 178.0 78 .354 .085 -.561 .125 -.007 .002 21.57 8 4.030 .435 .052St andardized Co efficients Be ta 2.447 -2.485 -.083 .531 .564t 2.532 4.152 -4.478 -3.510 5.354 8.440Si g. .030 .002 .001 .006 .000 .000a. De pendent V ariable: y 第四章 违背基本假设的情况4.1 4.2 4.3 4.4 4.5 4.6 异方差性产生的背景和原因 一元加权最小二乘估计 多元加权最小二乘估计 自相关性问题及其处理 异常值与强影响点 本章小结与评注 第四章 违背基本假设的情况Gauss-Markov条件?E (εi ) ? 0, i ? 1, 2, ?, n ? ?σ 2 , i ? j ? ?cov(εi ,ε j ) ? ?0 , i ? j ? ?(i ,j ? 1, 2, ?, n) 4.1 异方差性产生的背景和原因一、异方差产生的原因例4.1 居民收入与消费水平有着密切的关系。用xi 表示第i户的收入量,yi表示第i户的消费额,一个简单的 消费模型为:?yi=β0+β1xi+εi?,i=1,2,…,n? 低收入的家庭购买差异性比较小, 高收入的家庭购买行为差异就很大。 导致消费模型的随机项ε i具有不同的方差。 4.1 异方差性产生的背景和原因二、异方差性带来的问题当存在异方差时,普通最小二乘估计存在以下问题:? (1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。 4.2 一元加权最小二乘估计一、异方差性的检验(一)残差图分析法e图2.5(b) 存在异方差0x(b) 4.2 一元加权最小二乘估计一、异方差性的检验(二)等级相关系数法等级相关系数检验法又称斯皮尔曼(Spearman)检验,是一 种应用较广泛的方法。这种检验方法既可用于大样本,也可 用于小样本。进行等级相关系数检验通常有三个步骤。? 第一步,作y关于x的普通最小二乘回归,求出?i的估计值, 即ei的值。 4.2 一元加权最小二乘估计(二)等级相关系数法第二步,取ei的绝对值,分别把xi和|ei|按递增(或 递减)的次序分成等级,按下式计算出等级相关 系数:rs ? 1 ?6 n(n ? 1)2d i2 ?i ?1n其中,n为样本容量,di为对应于xi和|ei|的等级的差数。 4.2 一元加权最小二乘估计(二)等级相关系数法第三步,做等级相关系数的显著性检验。在n>8的情况下, 用下式对样本等级相关系数rs进行t检验。检验统计量为:t?n ? 2 rs 1 ? rs2如果t≤tα/2(n-2)可认为异方差性问题不存在, 如果t>tα/2(n-2),说明xi与|ei|之间存在系统关系,异方差性 问题存在。 4.2 一元加权最小二乘估计例4.3 设某地区的居民收入与储蓄额的历史统计数据如 表4.1。?(1)用普通最小二乘法建立储蓄y与居民收入x的回归方程, 并画出残差散点图;? (2)诊断该问题是否存在异方差;序号 储蓄 居民收入y(万元)1 2 3 … 31 264 105 90 … 2300x(万元)54 … 38200 4.2 一元加权最小二乘估计序号 1 2 储蓄y 264 105 居民收入x
xi等级 1 2 残差ei 169.0 -26.6 |ei| 169.0 26.6 |ei|等级 16 3 di -15 -1d i2225 134 5 6 7 8 9 10 1190131 122 107 406 503 431 588 8989954
34 5 6 7 8 9 10 11-104.6-110.5 -159.4 -253.4 -25.1 8.2 -129.0 -78.0 129.7104.6110.5 159.4 253.4 25.1 8.2 129.0 78.0 129.778 15 23 2 1 9 4 10-4-4 -10 -17 5 7 0 6 11616 100 289 25 49 0 36 11213 14 15…950779 819 1222…17663 21163…1213 14 15…102.7-145.5 -195.3 78.4…102.7145.5 195.3 78.4…614 19 5…6-1 -5 10…361 25 100…3123003820031-286.1286.124749 4.2 一元加权最小二乘估计600 4002000-200-400-600 0
X图4.1 残差图 4.2 一元加权最小二乘估计用SPSS计算等级相关系数。Correlations Spearman's rho ABSE Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N ABSE 1.000 . 31 .686 .000 31 X .686 .000 31 1.000 . 31X 4.2 一元加权最小二乘估计(2)计算等级相关系数。6 rs ? 1 ? ?1558 ? 0.(31 ? 1)t?31 ? 2 ? 0.6859 1 ? 0.68592? 5.076 4.2 一元加权最小二乘估计Spearman等级相关系数可以反映非线性相关的情况, Pearson简单相关系数不能反映非线性相关的情况。 例如x与y的取值如下,序号 x y 1 2 1 2 1 4 3 3 9 4 4 16 5 5 25 6 6 36 7 7 49 8 8 64 9 9 81 10 10 100yi ? xi2 具有完全的曲线相关。容易计算出y与x的简单相关系数r=0.9746, 而y与x的等级相关系数rs=1 4.2 一元加权最小二乘估计二、一元加权最小二乘估计 消除异方差性的方法通常有: ? 加权最小二乘法, ? Box-Cox变换法, ? 方差稳定性变换法 加权最小二乘法(Weighted Least Square,简记为WLS) 是一种最常用的消除异方差性的方法。? 4.2 一元加权最小二乘估计二、一元加权最小二乘估计 一元线性回归普通最小二乘法的残差平方和为:? Q( ? 0 , ?1 ) ? ? ( yi ? yi ) ? ? ( yi ? ? 0 ? ?1 xi ) 22 i ?1 i ?1 n n一元线性回归的加权最小二乘的离差平方和为:? Qw ( ? 0 , ?1 ) ? ? wi ( yi ? yi ) ? ? wi ( yi ? ? 0 ? ?1 xi ) 22 i ?1 i ?1 n n 4.2 一元加权最小二乘估计加权最小二乘估计为:? ? ?? 0 w ? yw ? ?1w xw ? n ? ? ? wi ( xi ? xw )( yi ? yw ) ?? i ?1 ??1w ? n ? ? wi ( xi ? xw ) 2 ? i ?1 ?1 其中, xw ? ?wiyw ? 1 ?wi?w x?w yi ii i是自变量的加权平均; 是因变量的加权平均。 4.2 一元加权最小二乘估计观测值的权数应该是观测值误差项方差的倒数,即?wi ? 1? i2在实际问题中,误差项的方差是未知的,常与自变量x的幂函 数xm成比例,其中m是待定的未知参数。此时权函数为1 wi ? m xi 4.2 一元加权最小二乘估计 三、寻找最优权函数?利用SPSS软件可以确定幂指数m的最优取值。 依次点选Analyze-Regression-Weight Estimation进入估 计权函数对话框,默认的幂指数m的取值为 m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0。 先将因变量y与自变量x选入各自的变量框,再把x选入 Weight变量框,幂指数(Power)取默认值,计算结果如下 (格式略有变动): 4.2 一元加权最小二乘估计Log-likelihood Function = -224.258830 Log-likelihood Function = -221.515008 Log-likelihood Function = -218.832193 Log-likelihood Function = -216.252339 Log-likelihood Function = -213.856272 Log-likelihood Function = -211.773375 Log-likelihood Function = -210.185972 Log-likelihood Function = -209.316127 Log-likelihood Function = -209.379714 POWER value = -2.000 POWER value = -1.500 POWER value = -1.000 POWER value = -.500 POWER value = .000 POWER value = .500 POWER value = 1.000 POWER value = 1.500 POWER value = 2.000The Value of POWER Maximizing Log-likelihood Function = 1.500 Log-likelihood Function = -209.316127 4.2 一元加权最小二乘估计Multiple R R Square Adjusted R Square Standard Error .9 .9Analysis of Variance:Regression Residuals DF 1 29 Sum of Squares 6.54477 Mean Square 6.57051 F 423.741 Sig 0.000Variables in the EquationVariable X (Constant) B .0 SE B ..316 Beta .967443 T 20.585 -9.182 Sig T . 4.2 一元加权最小二乘估计幂指数m的最优取值为m=1.5。 加权最小二乘的r2=0.9360,F值=423.741; 普通最小二乘的r2=0.912,F值=300.732。 说明加权最小二乘估计的效果好于普通最小二乘的效果。 4.2 一元加权最小二乘估计600 4002000-200-400-600 0
X图4.2 加权最小二乘残差图残差图 4.2 一元加权最小二乘估计序号yi264 105xiwiei169 -27eiw211 141 21..1314E-063小 方 差 组90131 12299541.0069E-069..6927E-07-105-111 -159-66-74 -1244 567 8 9 10107406 503 431 58811912 7.6917E-076....1710E-07-253-25 8 -129 -78-2214 35 -105 -58 4.2 一元加权最小二乘估计序号yi898 950xiwiei130 103eiw146 11611 124..2599E-071314中 等方 差 组779819 1222185753.9501E-073..2481E-07-146-195 78-135-188 80151617 18 19 20 21170200 22880
283002.8895E-072.....1005E-07413183 134 -195 134 452409176 122 -211 115 431 4.2 一元加权最小二乘估计序号yixiwiei343 250eiw324 22522 232..9676E-0724大 方 差 组1600281502.1173E-071..7068E-07-135180 317-156147 28125 262728 29 30 31257000 230035250 1.5110E-071....3394E-07234-468 -500 -317 -286190-507 -546 -364 -340 4.3 多元加权最小二乘当误差项εi存在异方差时,加权离差平方和为Qw ? ? wi ( yi ? ? 0 ? ?1 xi1 ? ? 2 xi 2 ? ? ? ? p xip ) 2i ?1 n记? w1 ? ? ? w2 ? ? W ?? ? ? ? ? ? wn ? ? ?? βw ?(X? WX)-1 X?Wy加权最小二乘估计 WLS的矩阵表达 4.3 多元加权最小二乘估计通常取权函数W为某个自变量xj(j=1,2,…, p)的幂函数,即, ? x m W j 在x1,x2,…,xp这p个自变量中取哪一个?这只需计算每个自变量xj与普通残差的等级相关系数,选取等级相关系数最大的自变量构造 权函数。 4.3 多元加权最小二乘估计例4.4 续例3.2,研究北京市各经济开发区经济发展 与招商投资的关系。 因变量y为各开发区的销售收入(百万元), x1为截至1998年底各开发区累计招商数目, x2为招商企业注册资本(百万元)。计算出普通残差的绝对值abse=|ei|与x1、x2的等级相关 系数,re1=0.443,re2=0.721,因而选取x2构造权函数。 4.3 多元加权最小二乘估计Correlations Spearman's rho ABSE Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N ABSE 1.000 . 15 .443 .098 15 .721 .002 15 X1 .443 .098 15 1.000 . 15 .432 .108 15 X2 .721 .002 15 .432 .108 15 1.000 . 15X1X2 4.3 多元加权最小二乘估计仿照例4.3,用Weight Estimate估计幂指数m,得m的 最优值为m=2。 由于m=2是在默认范围[-2,2]的边界,因而应该扩大 范围重新计算。取m从1到5,步长仍为0.5,得m的最优值 为m=2.5 4.3 多元加权最小二乘估计Multiple R .92163 R Square .84941 Adjusted R Square .82431 Standard Error .03238 DF Sum of Squares Mean Square F Regression 2 ..84 Residuals 12 .104845 Variable B SE B Beta X1 1. X2 . (Constant) -266. Sig 0.000T Sig T 4.195 . . .0279 4.3 多元加权最小二乘估计加权最小二乘的R2=0.84941,F值=33.84;普通最小二乘的R2=0.842,F值=31.96。加权最小二乘估计的拟合效果略好于普通最小二乘。加权最小二乘的回归方程为:? y =-266.96+1.696x1+0.4703x2普通最小二乘的回归方程为:? y =-327.039+2.036x1+0.468x2 4.3 多元加权最小二乘估计方差稳定变换(1)如果 ? i2 与 E(yi)存在一定的比例关系,使用 y′=? (2)如果σ i 与 E(yi)存在一定的比例关系,使用 y′=log(y);?1 (3)如果 ? i 与 E(yi)存在一定的比例关系,使用 y ? ? y 4.3 多元加权最小二乘估计Box-Cox变换Y (? )?Y ? ? 1 , ??0 ? ?? ? ?ln Y , ? ?0 ? §4.4 自相关性问题及其处理如果一个回归模型的随机误差项 cov(εi ,εj)≠0 则称随机误差项之间存在着自相关现象。 这里的自相关现象不是指两个或两个以上的变 量之间的相关,而指的是一个变量前后期数值之间 存在的相关关系。 §4.4 自相关性问题及其处理一、自相关性产生的背景和原因 1.遗漏关键变量时会产生序列的自相关性。2.经济变量的滞后性会给序列带来自相关性。3.采用错误的回归函数形式也可能引起自相关性。 4.蛛网现象(Cobweb phenomenon)可能带来序列的自相关性。5.因对数据加工整理而导致误差项之间产生自相关性。 §4.4 自相关性问题及其处理二、自相关性带来的问题 1.参数的估计值不再具有最小方差线性无偏性。? 2.均方误差MSE可能严重低估误差项的方差。? 3.容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一 点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错 误结论。? 4.当存在序列相关时,仍然是β的无偏估计量,但在任一特定的样本中, 可能严重歪曲β的真实情况,即最小二乘估计量对抽样波动变得非常敏感。 ? 5.如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行 预测和结构分析将会带来较大的方差甚至错误的解释。 §4.4 自相关性问题及其处理三、自相关性的诊断 (一)图示检验法 1. 绘制(et,et-1)的散点图。 §4.4 自相关性问题及其处理三、自相关性的诊断 (一)图示检验法 2.按照时间顺序绘制回归残差项et的图形。y 0e1 0 2 3 4 5 6 7 8(c)x(d)x §4.4 自相关性问题及其处理三、自相关性的诊断 (二)自相关系数法 误差序列ε1,ε2,…,εn的自 相关系数定义为???? ?t ?2nt t ?1??t ?2n2 t? t2?1 ?t ?2n自相关系数的估计值为? ???e et ?2nt t ?1et2 ?t ?2net2?1 ?t ?2n §4.4 自相关性问题及其处理三、自相关性的诊断(三)D.W检验 D.W检验是J.Durbin和G.S.Watson于1951年提 出的一种适用于小样本的一种检验方法。 D.W检验验只能用于检验随机扰动项具有一阶 自回归形式的序列相关问题。 这种检验方法是建立计量经济学模型中最常用 的方法,一般的计算机软件都可自动产生出D.W值。 §4.4 自相关性问题及其处理(三)D.W检验 随机扰动项的一阶自回归形式为:? ε t=ρ ε t-1+ut? 其中ut是不相关序列。为了检验序列的相关性,构造的假设是 H0:ρ=0 §4.4 自相关性问题及其处理(三)D.W检验定义D.W统计量为:D.W ? (et ? et ?1 ) 2 ?t ?2 nei2 ?t ?2nD.W ??e ? ?et ?2 2 t t ?2nn2 t ?1? 2? et et ?1t ?2 2 tn?et ?2nn ? ? ? ? et et ?1 ? ? ? 2?1 ? t ? 2n ? ? 2 ? ? ei ? t ?2 ? ? §4.4 自相关性问题及其处理(三)D.W检验? ???e et ?2nt t ?1?et ?2n2 tet2?1 ?t ?2n??e et ?2 n t ?2nt t ?1et2 ?得? D.W ? 2(1 ? ? )D.W的取值范围为:0≤D.W≤4 §4.4 自相关性问题及其处理(三)D.W检验因而D.W值与? ?的对应关系为 D.W 4 误差项的自相关性 完全负自相关? ?-1(-1,0) 0 (0,1) 1(2,4) 2 (0,2) 0负自相关 无自相关 正自相关 完全正自相关 §4.4 自相关性问题及其处理(三)D.W检验根据样本容量n和解释变量的数目k(这里包括常数项),查D.W分布表,得临界值dL和dU,然后依下列准则考察计算得 到的DW值,以决定模型的自相关状态:0≤D.W≤dL, dL<D.W≤dU, dU<D.W<4-dU, 误差项ε 1,ε 2,…,ε n间存在正相关;? 不能判定是否有自相关;? 误差项ε 1,ε 2,…,ε n间无自相关;4-dU≤D.W<4-dL,4-dL≤D.W≤4,不能判定是否有自相关; 误差项ε 1,ε 2,…,ε n间存在负相关。 §4.4 自相关性问题及其处理(三)D.W检验 §4.4 自相关性问题及其处理 §4.4 自相关性问题及其处理(三)D.W检验D.W检验尽管有着广泛的应用,但也有明显的缺点和局限性。1. D.W检验有一个不能确定的区域,一旦D.W值落在这个区 域,就无法判断。这时,只有增大样本容量或选取其他方法。?2. D.W统计量的上、下界表要求n>15,这是因为样本如果 再小,利用残差就很难对自相关的存在性作出比较正确的诊断。 ? 3. D.W检验不适应随机项具有高阶序列相关的检验。 §4.4 自相关性问题及其处理四、自相关问题的处理方法(一)迭代法以一元线性回归模型为例,设一元线性回归模型的误 差项存在一阶自相关? yt=β 0+β 1xt+ε εt=ρεt-1+ut??E( ut ) ? 0, t ? 1, 2, ?, n ? ?? 2 , t ? s ? ?cov(ut , us ) ? ?0 , t ? s ? ?t(t, s ? 1, 2, ?, n) §4.4 自相关性问题及其处理(一)迭代法 根据回归模型 yt=β 0+β 1xt+ε t 有 yt-1=β0+β1xt-1+εt-1 则有 (yt-ρyt-1)=(β0-ρβ0)+β1(xt-ρxt-1)+(εt-ρεt-1)? 令yt? ? yt ? ?yt ?1 xt? ? xt ? ?xt ?1? ? 0 ? ? 0 (1 ? ? ) ?1? ? ?1得? yt? ? ? 0 ? ?1?xt? ? ut §4.4 自相关性问题及其处理四、自相关问题的处理方法(一)迭代法1 ? ? 1 ? D.W 估计。 其中自相关系数ρ 用公式 ? 2用变换因变量与变换自变量作普通最小二乘回归。 如果误差项确实是一阶自相关,通过以上变换,回归模型 已经消除自相关。 §4.4 自相关性问题及其处理(一)迭代法 实际问题中,有时误差项并不是简单的一阶自相关,而 是更复杂的自相关形式,(4.24)式的误差项ut可能仍然存 在自相关,这就需要进一步对(4.24)式的误差项ut做D.W 检验,以判断ut是否存在自相关,如果检验表明误差项ut不 存在自相关,迭代法到此结束。如果检验表明误差项ut存在 自相关,那末对回归模型(4.24)式重复用迭代法,这个过 程可能要重复几次,直至最终消除误差项自相关。这种迭代 消除自相关的过程正是迭代法名称的由来。 §4.4 自相关性问题及其处理(二)差分法? 一阶差分法通常适用于原模型存在较高程度的一阶自相关的 情况。 在迭代法(4.24)式中,当ρ =1时,得? (yt-yt-1)=β 1(xt-xt-1)+(ε t-ε t-1) ? 以Δ yt=yt-yt-1,Δ xt=xt-xt-1代之,得? Δ yt=β 1Δ xt+ut? 是不带有常数项的回归方程? ?1 ?? ?y ?xt ?2 n tnt?xt2 ?t ?2 §4.4 自相关性问题及其处理(二)差分法? 一阶差分法的应用条件是自相关系数ρ=1,在实际 应用中,ρ接近1时我们就采用差分法而不用迭代法,这 有两个原因。 第一,迭代法需要用样本估计自相关系数ρ,对ρ的 估计误差会影响迭代法的使用效率; 第二,差分法比迭代法简单,人们在建立时序数据的 回归模型时,更习惯于用差分法。 §4.4 自相关性问题及其处理(三)科克伦―奥克特(Cochrane-Orcutt)迭代 ?? 方法(一)中的迭代法近似取 ? ? 1 ? DW 2 可以使用其他迭代法给出的更精确的估计,最常用的是科 克伦―奥克特迭代法。 以一元线性回归为例,方法(一)的迭代是1步迭代, 根据1步迭代计算出的 和回归系数,由(4.18)式的回 ? ? 归方程重新计算残差,得到新的残差序列后就可以计算出 ? ? ? ? 新的DW值,新的 和回归系数,如果新的 与前一次 迭代的相差很小,低于给定的界限,就停止迭代,否则继 续下一步迭代。 1 §4.4 自相关性问题及其处理(三)科克伦―奥克特(Cochrane-Orcutt)迭代 ?有一点需要说明的是,迭代的起始步骤认为是从第0步 开始的,就是用(4.18)式做普通最小二乘回归,相当于 认为? =0。这样方法(一)中的迭代实际上包括第0步和第 1步共两步迭代过程,也称为科克伦―奥克特两步法。通 常情况下,科克伦―奥克特多步迭代与两步迭代相差不大。 §4.4 自相关性问题及其处理(四)普莱斯―温斯登(Prais-Winsten)迭代法 ? 采用迭代法用(4.23)式计算迭代值时不能计算第1期 的迭代值,因此样本量从n减少到n-1。对大样本量时这无 足轻重,但是当样本量较小时每一个样本值都是宝贵的。 为此可以使用普莱斯―温斯登变换, 对t=1,令,? y1 ? 1 ? ? 2 y1? x1 ? 1 ? ? 2 x1经过普莱斯―温斯登变换的迭代法就称为普莱斯―温 斯登迭代法。 §4.4 自相关性问题及其处理五、 自相关实例分析?【例4.5】 续例2.2年份 人均国民收 入(元) 82 85 88
525 580 692 853 956 12 人均消费金 额(元) 234.75 259.26 280.58 305.97 347.15 433.53 481.36 545.40 687.51 756.27 92 95 98 年份 人均国民 收入(元) 87 54 92 人均消费 金额(元) 797.08 890.66 3.22 4.59 9.36 2958.18 §4.4 自相关性问题及其处理年份82 85 88 91 94 97 1998序号1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19xt460 489 525 580 692 853 956 12 87 54 92yt234.75 259.26 280.58 305.97 347.15 433.53 481.36 545.40 687.51 756.27 797.08 890.66 3.22 4.59 9.36 2958.18et-12.11 -.81 4.13 4.47 -5.33 7.75 8.69 5.35 33.18 30.47 15.73 -2.22 -15.24 -52.24 -87.12 -22.70 51.07 26.21 10.70xt?229.56 249.20 283.90 364.88 462.71 474.91 564.82 732.34 747.78 781.23 957.42 9.13 1.43 8.14 2978.11yt?126.86 134.36 147.72 174.59 237.74 236.85 273.91 379.90 368.52 370.54 441.11 561.05 723.47 990.02 2.39 8.07et?5.92 4.46 2.00 -8.08 10.45 4.00 .04 29.62 11.19 -2.05 -11.85 -14.98 -45.02 -59.58 24.18 61.43 -5.09 -6.64 §4.4 自相关性问题及其处理4. 方法比较自回归方法 迭代法 差分法 精确最大似然? ?? ?037.202 ―― 33.532 37.214? ? ? ? ? ? 0? ? (1 ? ? ) ? 0 ?1 ? ?1?DW 1.372 1.596 ―― 1.381? ?u26.96 29.34 27.055 27.8400.564 ―― 0.54416.220 0 15.291 16.2630.456 0.465 0.457 0.456科克伦―奥克特 0.563普莱斯―温斯登 0.57033.11014.2370.4571.38527.039 §4.4 自相关性问题及其处理对回归模型 做变换yt=β 0+β 1xt+εtyt? ? yt ? ?yt ?1 , xt? ? xt ? ?xt ?1得其中? yt? ? ? 0 ? ?1?xt? ? ut? ? 0 ? ? 0 (1 ? ? ), ?1? ? ?1问题:为什么变换后的回归模型参数估计性质好 §4.4 自相关性问题及其处理t ut 0.5 -0.7 ?t=?t-1+ut自 相 关 的 危 害0 1 2 3 4 5 6 7 8 9 100.3 0 -2.3 -1.9 0.2 -0.3 0.2 -0.13 3.5 2.8 3.1 3.1 0.8 -1.1 -0.9 -1.2 -1 -1.1y=2+0.5t+?t 5 6 5.86.6 7.1 5.3 3.9 4.6 4.8 5.5 5.9 §4.4 自相关性问题及其处理8自 相 关 的 危 害7 6 5 4 3 2 1 0 0 2 4 6 8 10 12拟合的回归线 y = -0.07x + 5.85 真实的回归线 y = 2 + 0.5x §4.4 自相关性问题及其处理5 预测? 以迭代法为例说明回归预测值 yt 和残差 et? 的计算方法。? y ?t =16.22+0.456 x ?t将 y ?t =yt-0.564yt-1, x ?t =xt-0.564xt-1 代入,还原为原始方程? y t =37.20+0.564yt-1+0.456(xt-0.564xt-1)=37.20+0.564yt-1+0.456xt-0.257xt-1 §4.4 自相关性问题及其处理5 预测其一般性的公式为?? ? ? ? ? yt ? ? 0 ? ? yt ?1 ? ?1?( xt ? ? xt ?1 )? ? ? 注意:在自相关回归中,回归预测值 yt 不是用 ? 0 ? ?1 xt 计算? SPSS软件提供的3种方法可以直接保存回归预测值 yt 和残差et? §4.4 自相关性问题及其处理? ? ? 另外一种计算 yt 的想法是对 ? 0 ? ?1 xt 做修正。在误差项没有自相关时,我 ? ? ? 们实际上就是直接用估计值 ? 0 ? ?1 xt 作为回归预测值 yt 。现在误差项存在自相? ? 关 ? t ? ?? t ?1 ? ut ,需要从残差 et 中提取出有用的信息对估计值 ? 0 ? ?1 xt 做修? ? 正,其中 et ? yt ? ( ? 0 ? ?1 xt ) 是误差项 ? t 的估计值。计算过程如下: ? ? ? ? ? t=1 时,取 y1 ? ? 0 ? ?1 x1 , e1 ? y1 ? ( ? 0 ? ?1 x1 )? ? ? ? t≥2 时,取 yt ? ? 0 ? ?1 xt ? ? et ?1 , ? ? et ? yt ? ( ? 0 ? ?1 xt )? 注意: et 是? t 的估计值, et? ? et ? ? et ?1 是 u t 的估计值 §4.4 自相关性问题及其处理例如,取x20=6600,则 ?? ? ? ? ? yt ? ? 0 ? ? yt ?1 ? ?1?( xt ? ? xt ?1 )? y20 ? 16.22 ? 0.564 ? 2958 .15 ? 0.456 (6600 ? 0.564 ? 6392 ) ? 3050 .31第二种方法? ? ? ? t≥2 时,取 yt ? ? 0 ? ?1 xt ? ? et ?1 , ? ? et ? yt ? ( ? 0 ? ?1 xt )e19 ? 2958 .18 ? (37.202 ? 0.456 ? 6392 ) ? 6.226 ? y20 ? 37.202 ? 0.456 ? 6600 ? 0.564 ? 6.226 ? 3050 .31 §4.5 异常值与强影响值异常值分为两种情况:一种是关于因变量y异常;另一种是关于自变量x异常。 §4.5 异常值与强影响值一、关于因变量y的异常值? 在残差分析中,认为超过 ? 3? 的残差为异常值。标准化残差学生化残差ei ZREi ? ? ?ei SREi ? ? ? 1 ? hii其中 hii 是帽子矩阵 H= X(X ? X)-1 X ? 的主对角线元素。 §4.5 异常值与强影响值当数据中存在关于 y 的异常观察值时,异常值把回归线拉向 自己,使异常值本身的残差减少,而其余观察值的残差增大,这时? 回归标准差 ? 也会增大,因而用“3σ ”准则不能正确分辨出异常值。解决这个问题的方法是改用删除残差。 §4.5 异常值与强影响值删除残差的构造思想是: 在计算第 i 个观察值的残差时,用删除掉这第 i 个观察值的 其余 n-1 个观察值拟合回归方程,计算出第 i 个观察值的删除 ? 拟合值 y ( i ) ,这个删除拟合值与第 i 个值无关,不受第 i 个值是否 为异常值的影响,第 i 个观察值的删除残差为:? e(i ) ? yi ? y(i )可以证明:ei e( i ) ? 1 ? hii §4.5 异常值与强影响值进一步可以给出第 i 个观察值的删除学生化残差,记为 SRE(i)? n ? p ?1 SREi2 ? SRE(i ) ? SREi ? ?n? p?2 ? n? p?2? ? ? ??1 2用 SP SS 软件可以直接计算出删除学生化残差 SRE(i)的数值, | SRE(i)|&3 的观测值即判定为异常值。 §4.5 异常值与强影响值二、关于自变量x的异常值在 D(ei)=(1-hii)σ 2 中,hii 是帽子矩阵中主对角线的第 i 个元素,它是调节 ei 方差 大小的杠杆,因而称 hii 为第 i 个观察值的杠杆值。类似于一元线性回归,多元线性 回归的杠杆值 hii 也是表示自变量的第 i 次观测值与自变量平均值之间距离的远近。 较大的杠杆值的残差偏小,这是因为大杠杆值的观测点远离样本中心,能够把回归 方程拉向自己,因而把杠杆值大的样本点称为强影响点。 §4.5 异常值与强影响值二、关于自变量x的异常值根据(3.22)式,tr(H)= ? h ii =p+1,则杠杆值 hii 的平均值为i ?1 n1 n p ?1 h ? ? hii ? n i ?1 n一个杆值 hii 的如果大于 2 倍或 3 倍的 h 就认为是大的 §4.5 异常值与强影响值二、关于自变量x的异常值SPSS 软件计算出的是中心化杠杆值 chii,也就是自变量中心化后 生成的帽子矩阵的主对角线元素,由参考文献[2]可知,chii=hii-1/n因此,? chi ?1nii=p,中心化杠杆值 chii 的平均值是p 1 n ch ? ? chii ? n i ?1 n §4.5 异常值与强影响值二、关于自变量x的异常值 虽然强影响点并不总是y的异常值点,不能单纯根据 杠杆值hii的大小判断强影响点是否异常,但是我们对强影响点应该有足够的重视。为此引入库克距离,用来判断强影响点是否为y的异常值点。库克距离的计算公式为:? hii ? Di ? 2 ? 2 ? ? ( p ? 1)? ? (1 ? hii ) ? ei2 §4.5 异常值与强影响值二、关于自变量x的异常值库克距离反应了杠杆值 hii 与残差 ei 大小的一个综合效应。对于库克距离,判断其大小的方法比较复杂,一个粗略的 标准是 当Di&0.5时,认为不是异常值点, 当Di&1时, 认为是异常值点。 §4.5 异常值与强影响值三、异常值实例分析以例3.2的北京开发区的数据为例,做异常值的诊断分析。 分别计算普通残差ei,学生化残差SREi,删除残差e(i), 删除学生化残差SRE(i),杠杆值chii,库克距离Di,见表4.10 §4.5 异常值与强影响值序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x1 25 20 6
120 28 7 532 75 40 187 122 74 x2 .34 750.32 9.31 .47 520.27 671.13 0.00 862.75 672.99 901.76 3546.18 y 553.96 208.55 3.10 2.12 .82 70.12 122.24 .00 7.50 224.18 538.94 2442.79 ei -832 75 -34 127 -458 502 147 96 121 -697 95 -151 -145 195 958 SREi -2.340 0.167 -0.075 0.376 -1.034 1.305 0.326 0.218 0.271 -1.606 0.209 -0.336 -0.324 0.431 2.613 e(i) - 253 -529 768 164 112 138 -837 104 -169 -164 216 1613 SRE(i) -3.038 0.160 -0.072 0.363 -1.037 1.348 0.313 0.209 0.261 -1.735 0.201 -0.323 -0.312 0.416 3.810 chii 0.375 0.043 0.054 0.432 0.068 0.280 0.036 0.070 0.060 0.100 0.021 0.040 0.052 0.029 0.339 Di 1.445 0.001 0.000 0.047 0.055 0.302 0.004 0.003 0.004 0.172 0.001 0.005 0.005 0.007 1.555 §4.5 异常值与强影响值绝对值最大的学生化残差为SRE15=2.613,小于3。 绝对值最大的删除学生化残差为SRE(15)=3.810,因而根 据学生化残差诊断认为第15个数据为异常值。其中心化杠杆值 chii=0.339位于第3大,库克距离 Di=1.555位于第一大。由于p 2 ch ? ? ? 0.13333 n 15第 15 个数据 hii=0.339&2 h ,因而从杠杆值看第 15 个数据是 自变量的异常值,同时库克距离 D15=1.555&1,这样第 15 个数据为 异常值的原因是由自变量异常与因变量异常两个原因共同引起的。 §4.5 异常值与强影响值异常值原因 异常值消除方法 1.数据登记误差,存在抄写或录入 重新核实数据 的错误 2.数据测量误差 3.数据随机误差 4.缺少重要自变量 重新测量数据 删除或重新观测异常值数据 增加必要的自变量5.缺少观测数据6.存在异方差增加观测数据,适当扩大自变 量取值范围采用加权线性回归7.模型选用错误,线性模型不适用 改用非线性回归模型 §4.5 异常值与强影响值对本例的数据,通过核实认为不存在登记误差和测量误差。 删除第 15 组数据,用其余 14 组数据拟合回归方程,发现 第 6 组数据的删除学生化残差增加为 SRE(6)=4.418,仍然存在 异常值现象,因而认为异常值的原因不是由于数据的随机误差。 实际上,在本章第三节中已经诊断出本例数据存在异方差,? 应该采用加权最小二乘回归。权数为 Wi= x 22.5 。用 SPSS 软件计算出加权最小二乘回归的有关变量值如下表所示: §4.5 异常值与强影响值序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x1 25 20 6
120 28 7 532 75 40 187 122 74 x2 .34 750.32 9.31 .47 520.27 671.13 0.00 862.75 672.99 901.76 3546.18 y 553.96 208.55 3.10 2.12 .82 70.12 122.24 .00 7.50 224.18 538.94 2442.79 ei -890 20 -93 403 -343 715 126 45 62 -582 58 -199 -143 175 916 SREi -1.149 0.135 -0.795 1.175 -1.135 0.937 0.949 0.717 0.617 -0.926 0.281 -1.391 -1.611 1.137 1.173 e(i) -0 716 -429 841 139 74 76 -677 65 -223 -224 189 1179 SRE(i) -1.3 -0.3 -1.0 0.5 0.9 0.4 -1.8 1.1939 chii 0.4 0.4 0.1 0.9 0.6 0.4 0.2 0.2209 Di 0.9 0.1 0.5 0.5 0.6 0.5 0.0 0.1317 §4.5 异常值与强影响值采用加权最小二乘回归后,删除学生化残差SRE(i)的绝 对值最大者为|SRE(13)|=1.7424,库克距离都在0.5至1.0之 间,说明数据没有异常值。这个例子也说明了用加权最小二 乘法处理异方差性问题的有效性。 第五章 自变量的选择与逐步回归5.1 5.2 5.3 5.4 自变量选择对估计和预测的影响 所有子集回归 逐步回归 本章小结与评注 §第5章 自变量选择与逐步回归从20世纪60年代开始,关于回归自变量的选择成为统 计学中研究的热点问题。统计学家们提出了许多回归选 元的准则,并提出了许多行之有效的选元方法。本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回 归选元的几个方法;详细讨论逐步回归方法及其应用。 §5.1 自变量选择对估计和预测的影响一、全模型和选模型 设研究某一实际问题涉及到对因变量有影响的因素共 有m个,回归模型为:? y=β 0+β 1x1+β 2x2+…+β mxm+ε 称为全回归模型。? (5.1)如果我们从所有可供选择的m个变量中挑选出p个,记 为x1,x2,…,xp,构成的回归模型为:?y=β0p+β 1px1+β 2px2+…+β ppxp+ε p(5.2)?称模型(5.2)式为选模型。 §5.1 自变量选择对估计和预测的影响一、全模型和选模型模型选择不当会给参数估计和预测带来什么影响?下 面我们将分别给予讨论。?β 为了方便,我们把模型(5.1)式的参数估计向量 ? 和σ 2的估计记为: 1 ? ?(X? X )-1 X? y ?2 ?m ? SSEm βm m m mn ? m ?1把模型(5.2)式的参数估计向量记为? βp ? (X ? X p )-1 X ? y p p?2 ?p ?1 SSEp n ? p ?1 §5.1 自变量选择对估计和预测的影响二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况: 第一种情况是全模型正确而误用了选模型; 第二种情况是选模型正确而误用了全模型式。 §5.1 自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质 1. 在 xj 与 xp+1, ?,xm 的相关系数不全为 0 时,选模型回归系数的 最小二乘估计是全模型相应参数的有偏估计,即? E(? jp ) ? ? jp ? ? j (j=1,2, ?,p) 。 §5.1 自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质 2. 选模型的的预测是有偏的。 给定新自变量值 x 0p ? (x 01 , x 02 ,?, x 0m )? ,因变量新值为 y0=β 0+β 1x01+β 2x02+?+β mx0m+ε 用选模型的预测值为? ? ? ? ? y 0 p ? ? 0 p ? ?1p x 01 ? ? 2 p x 02 ? ? ? pp x 0 p0? 作为 y0 的预测值是有偏的,即 E( y 0p ? y 0 ) ? 0 。 §5.1 自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质 3. 选模型的参数估计有较小的方差? ? ? ? 选模型的最小二乘参数估计为βp ? (? 0 p , ?1p ,?, ? pp ) ?? ? ? ? 全模型的最小二乘参数估计为βm ? (? 0 m , ?1m ,?, ? mm ) ?? ? 这条性质说明 D(? jp ) ? D(? jm ), j ? 0,1,?, p 。 §5.1 自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质 4. 选模型的预测残差有较小的方差。 ? 选模型的预测残差为 e 0 p ? y 0 p ? y 0? 全模型的预测残差为 e 0m ? y 0m ? y 0其中 y0=β 0+β 1x01+β 2x02+?+β mx0m+ε 则有 D(e0p)≤D(e0m)。 §5.1 自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质 5. 记βm?p ? (? p?1 ,?, ? m )?? ? ? 用全模型对βm?p 的最小二乘估计为βm ? p ? (? p?1 ,?, ? m ) ? ? 则在 D(βm ? p ) ?βm ? pβ?m ? p 的条件下E(e0p)2= D(e0p)+(E(e0p))2≤D(e0m) 即选模型预测的均方误差比全模型预测的方差更小。 §5.1 自变量选择对估计和预测的影响(二)选模型正确而误用全模型的情况如果选模型正确,从无偏性的角度看,? ? ? ? ? 选模型的预测值 y 0 p ? ? 0 p ? ?1p x 01 ? ? 2 p x 02 ? ? ? pp x 0 p是因变量新值 y0=β 0+β 1x01+β 2x02+?+β px0p+ε 的无偏估计,此时全模型的预测值0? ? ? ? ? y 0 m ? ? 0 ? ?1 x 01 ? ? 2 x 02 ? ? ? m x 0 m 是 y0 的有偏估计。 §5.1 自变量选择对估计和预测的影响(二)选模型正确而误用全模型的情况从预测方差的角度看,根据性质 4,选模型的预测方差 ? ? D( y 0 p )小于全模型的预测方差 D( y 0m ) 从均方预测误差的角度看,全模型的均方预测误差 2 2 ? ? ? E( y 0 m ? y 0 ) =D( y 0m )+[E( y 0m )-E(y0)] 包含预测方差与预测偏差的平方两部分 2 ? ? 而选模型的均方预测误差 E( y 0 p -y0) =D( y 0 p )? ? 仅包含预测方差这一项,并且 D( y 0 p )≤D( y 0m )因而从均方预测误差的角度看,全模型的预测误差将更大。 §5.1 自变量选择对估计和预测的影响(二)选模型正确而误用全模型的情况 上述结论告诉我们,一个好的回归模型,并不是考虑的 自变量越多越好。在建立回归模型时,选择自变量的基本 指导思想是“少而精”。哪怕我们丢掉了一些对因变量y还 有些影响的自变量,由选模型估计的保留变量的回归系数 的方差,要比由全模型所估计的相应变量的回归系数的方 差小。而且,对于所预测的因变量的方差来说也是如此。 丢掉了一些对因变量y有影响的自变量后,所付出的代价是 估计量产生了有偏性。然而,尽管估计量是有偏的,但预 测偏差的方差会下降。另外,如果保留下来的自变量有些 对因变量无关紧要,那么,方程中包括这些变量会导致参 数估计和预测的有偏性和精度降低。 §5.2一、所有子集的数目所有子集回归有m个可供选择的变量x1,x2,…,xm,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的 所有可能的回归方程就有2m-1个。 从另一个角度看0 1 m Cm ? Cm ? ? ? Cm ? 2 m §5.2所有子集回归二、关于自变量选择的几个准则 从数据与模型拟合优劣的直观考虑出发,认为残 差平方和SSE最小的回归方程就是最好的。还曾用复相 关系数R来衡量回归拟合的好坏。然而这两种方法都有 明显的不足,这是因为:SSEp+1≤SSEpR 2?1 ≥ R 2 p p §5.2所有子集回归准则1 自由度调整复相关系数达到最大n ?1 R ? 1? (1 ? R 2 ) n ? p ?12 a显然有 R a ≤R2, R a 随着自变量的增加并不一定增大。2 从拟合优度的角度追求“最优” ,则所有回归子集中 R a 最大者22对应的回归方程就是“最优”方程。 §5.2所有子集回归准则1 自由度调整复相关系数达到最大从另外一个角度考虑回归的拟合效果, 回归误差项方差σ 2的无偏估计为:? ?2 ?1 SSE n ? p ?1此无偏估计式中也加入了惩罚因子n-p-1 §5.2所有子集回归准则1 自由度调整复相关系数达到最大? 由以上分析,用平均残差平方和 ? 2 作为自变量选元准则是合理的,2 那末它和调整的复判定系数 R a 准则有什么关系哪?实际上,这两个准则是等价的,容易证明以下关系式成立n ?1 2 ? R ?1? ? SST2 a2 ? 由于 SST 是与回归无关的固定值,因而 R a 与 ? 2 是等价的 §5.2所有子集回归准则2 赤池信息量AIC达到最小 AIC准则是日本统计学家赤池(Akaike)1974年根据极 大似然估计原理提出的一种较为一般的模型选择准则,人 们称它为Akaike信息量准则 (Akaike Information Criterion, 简记为AIC)。AIC准则既可用来作回归方程自变量的选择, 又可用于时间序列分析中自回归模型的定阶上。由于该方 法的广泛应用,使得赤池乃至日本统计学家在世界的声誉 大增。 §5.2所有子集回归准则2 赤池信息量AIC达到最小设回归模型的似然函数为L(θ,x), θ的维数为p,x为样本,在 回归分析中样本为y=(y1,y2,…yn)′,则AIC定义为:? AIC=-2lnL(θL ,x)+2pθ 其中 ? L 是θ 的极大似然估计,p 是未知参数的个数。 §5.2所有子集回归准则2 赤池信息量AIC达到最小 假定回归模型的随机误差项ε遵从正态分布,即?ε~N(0,σ2)对数似然函数为ln Lmax ? ??L 将 ?2 ? SSE 代入得 1 nn n 1 ?2 ln(2? ) ? ln(? L ) ? SSE 2 ? 2 2 2? Ln n SSE n ln Lmax ? ? ln(2? ) ? ln( )? 2 2 n 2 §5.2所有子集回归准则2 赤池信息量AIC达到最小? 带入公式 AIC=-2lnL(θL ,x)+2p 中这里似然函数中的未知参数个数为p+2,略去与p无关的 常数,得回归模型的AIC公式为AIC=nln(SSE)+2p对每一个回归子集计算AIC,其中AIC最小者所对 应的模型是“最优”回归模型 §5.2准则4 Cp统计量达到最小所有子集回归1964年马勒斯 (Mallows)从预测的角度提出一个可 以用来选择自变量的统计量――――Cp统计量。根据性质5, 即使全模型正确,但仍有可能选模型有更小的预测误差。 Cp正是根据这一原理提出来的。 §5.2准则4 Cp统计量达到最小所有子集回归考虑在n个样本点上,用选模型(5.2)式作回报预测 时,预测值与期望值的相对偏差平方和为:Jp ? ? 1?21( yip ? E ( yi )) 2 ? ?i ?1 nn?2? ( ? 0 p ? ?1 p xi1 ? ? ? ? pp xip ? ( ? 0 ? ?1 xi1 ? ? ? ? m xim )) 2 ? ? ?i ?1 §5.2准则4 Cp统计量达到最小所有子集回归可以证明,Jp的期望值是E( J p ) ?E ( SSEp )?2? n ? 2( p ? 1)略去无关的常数2,据此构造出Cp统计量为SSEp SSEp Cp ? ? n ? 2 p ? (n ? m ? 1) ?n?2p 2 ? ? SSEm §5.2准则4 Cp统计量达到最小所有子集回归1 ? 其中? ? 是全模型中σ 2 的无偏估计。 SSEm n ? m ?12这样我们得到一个选择变量的 Cp 准则: 选择使 Cp 最小的自变量子集,这个自变量子集对应的回归 方程就是“最优”回归?方程。 §5.2所有子集回归例5.1 y表示某种消费品的销售额,x1表示居民可支配收入, x2表示该类消费品的价格指数,x3表示其他消费品平均价格指数。表5.1给出了某地区18年某种消费品销售情况资料,试建立该地区该消费品销售额预测方程。 §5.2表5.1序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 x1(元)所有子集回归x2(%) 85.0 92.0 91.5 92.9 93.0 96.0 95.0 95.6 98.9 101.5 102.0 105.0 106.0 109.0 112.0 112.5 113.0 114.0 x3(%) 87.0 94.0 95.0 95.5 96.0 97.0 97.5 97.0 98.0 101.2 102.5 104.0 105.9 109.5 111.0 112.0 112.3 113.0 (百万元) 7.8 8.4 8.7 9.0 9.6 10.3 10.6 10.9 11.3 12.3 13.5 14.2 14.9 15.9 18.5 19.5 19.9 20.5 81.2 82.9 83.2 85.9 88.0 99.9 102.0 105.3 117.7 126.4 131.2 148.0 153.0 161.0 170.0 174.0 185.0 189.0 §5.2表5.2 自变量子集所有子集回归Ra20.97110.7 0.9714R2AICCp这个例子中, n=18,m=3, 所有的自变量 子集有2m-1=7 个,即有7个 回归子集。x1x2 x3 x1,x20.97280.8 0.974740.0648.48 50.74 40.764.13416.151 20.452 4.734x1,x3x2,x3 x1,x2,x30.97840.10.97550.137.9350.09 37.522.00517.461 2.000 §5.2所有子集回归由表5.2的3项指标均可看到x1,x2,x3是“最优”子集, x1,x3是“次优”子集。回归方程分别为? y =-10.8x1 -0..4110x3 ? y =-14.049+0..1178x3 §5.2例5.2所有子集回归三、用SAS软件寻找最优子集2 对例 3.1 的数据,用调整的复判定系数R a 准则选择最优子集回归模型。 SAS软件共有三个基本窗口,分别为: (1)程序编辑窗(PROGRAM EDITOR),用来编辑程序。 (2)日志窗(LOG),显示已执行的语句和系统信息,包括 错误信息。 (3)输出窗(OUTPUT)显示程序运行结果。用主菜单的Window命令可以实现在三个窗口间的转换。 §5.2data data1; input x1-x12所有子集回归1.94 4.5 154.45 207.33 246.87 277.64 135.79 30.58 110.67 80.83 51.83 14.09 23840.33 6.49 133.16 127.29 120.17 114.88 81.21 14.05 35.7 16 27.1 2.93 202…; model y=x1-x12/selection= §5.2以下是部分输出结果:AdjustedR-square 0..所有子集回归Variables in ModelIn 6 X3 X5 X8 X9 X10 X11R-square0.0..0.0..76 7X3 X5 X6 X8 X9 X10 X11X3 X6 X8 X9 X10 X11 X3 X4 X5 X8 X9 X10 X110.0. …0.0.77X3 X5 X8 X9 X10 X11 X12X3 X5 X7 X8 X9 X10 X11 §5.3 逐步回归一、问题的提出及逐步回归的思想 自变量的所有可能子集构成2m-1个回归方程,当可供选择 的自变量不太多时,用

我要回帖

更多关于 数学学霸 的文章

 

随机推荐