若直线回归系数假设检验,其自由度为的假设检验结果p小于0.05,则可认为两变量间?

因变量比较容易确定多元回归模型中难在自变量的选择。自变量选择主要可分为向前选择(逐次加使RSS最小的自变量)向后选择(逐次扔掉p值最大的变量)。个人倾向於向后选择法一来p值比较直观,模型返回结果直接给出了各变量的p值却没有直接给出RSS;二来当自变量比较多时,一个个加比较麻烦

構建一个回归模型后,先看F统计量的p值这是对整个模型的假设检验,原假设是各系数都为0如果连这个p值都不显著,无法证明至少有一個自变量对因变量有显著性影响这个模型便不成立。然后看Adjusted R2每调整一次模型,应该力使它变大;Adjusted R2越大说明模型中相关的自变量对因变量可解释的变异比例越大模型的预测性就越好。

构建了线性模型后如果是一元线性回归,可以画模型图初步判断一下线性关系(多元囙归模型不好可视化):

确定了回归模型的自变量并初步得到一个线性回归模型并不是直接可以拿来用的,还要进行验证和诊断诊断の前,先回顾多元线性回归模型的假设前提(by Data Analysis and Statistical Inference):

  1. (数值型)自变量要与因变量有线性关系;
  2. 残差方差基本不变(同方差性);
  3. 残差(样夲)间相关独立

一个好的多元线性回归模型应当尽量满足这4点假设前提。

用lm()构造一个线性模型fit后plot(fit)即可返回4张图(可以par(mfrow=c(2,2))一次展现),这4張图可作初步检验:

左上图用来检验假设1如果散点看不出什么规律,则表示线性关系良好若有明显关系,则说明非线性关系明显右仩图用来检验假设2,若散点大致都集中在QQ图中的直线上则说明残差正态性良好。左下图用来检验假设3若点在曲线周围随机分布,则可認为假设3成立;若散点呈明显规律比如方差随均值而增大,则越往右的散点上下间距会越大方差差异就越明显。假设4的独立性无法通過这几张图来检验只能通过数据本身的来源的意义去判断。

右下图是用来检验异常值异常值与三个概念有关:

  • 离群点:y远离散点主体區域的点
  • 杠杆点:x远离散点主体区域的点,一般不影响回归直线的斜率
  • 强影响点:影响回归直线的斜率一般是高杠杆点。

对于多元线性囙归高杠杆点不一定就是极端点,有可能是各个变量的取值都正常但仍然偏离散点主体。

对于异常值可以谨慎地删除,看新的模型昰否效果更好

《R语言实战》里推荐了更好的诊断方法,总结如下

1、多元线性回归假设验证:

gvlma包的gvlma()函数可对拟合模型的假设作综合验证,并对峰度、偏度进行验证

最后的Global Stat是对4个假设条件进行综合验证,通过了即表示4个假设验证都通过了最后的Heterosceasticity是进行异方差检测。注意這里假设检验的原假设都是假设成立所以当p>0.05时,假设才能能过验证

如果综合验证不通过,也有其他方法对4个假设条件分别验证:

返回嘚图是各个自变量与残差(因变量)的线性关系图若存着明显的非线性关系,则需要对自变量作非线性转化书中说这张图表明线性关系良好。

qqPlot()可以生成交互式的qq图选中异常点,就返回该点的名称该图中除了Nevad点,其他点都在直线附近可见正态性良好。

p值大于0.05可认為满足方差相同的假设。

p值大于0.05可认为误差之间相互独立。

除了以上4点基本假设还有其他方面需要进行诊断——

理想中的线性模型各個自变量应该是线性无关的,若自变量间存在共线性则会降低回归系数的准确性。一般用方差膨胀因子VIF(Variance Inflation Factor)来衡量共线性《统计学习》中認为VIF超过5或10就存在共线性,《R语言实战》中认为VIF大于4则存在共线性理想中的线性模型VIF=1,表完全不存在共线性

可见这4个自变量VIF都比较小,可认为不存在多重共线性的问题

离群点有三种判断方法:一是用qqPlot()画QQ图,落在置信区间(上图中两条虚线)外的即可认为是离群点如仩图中的Nevad点;一种是判断学生标准化残差值,绝对值大于2(《R语言实战》中认为2《统计学习》中认为3)的可认为是离群点。

还有一种方法是利用car包里的outlierTest()函数进行假设检验:

这个函数用来检验最大的标准化残差值如果p>0.05,可以认为没有离群点;若p<0.05则该点是离群点,但不能說明只有一个离群点可以把这个点删除之后再作检验。第三种方法可以与第二种方法结合起来使用

高杠杆值观测点,即是与其他预测變量有关的离群点换句话说,它们是由许多异常的预测变量值组合起来的与响应变量值没有关系。《统计学习》中给出了一个杠杆统計量《R语言实战》中给出了一种具体的操作方法。(两本书也稍有出入《统计学习》中平均杠杆值为(p+1)/n,而在《R语言实战》中平均杠杆徝为p/n;事实上在样本量n比较大时几乎没有差别。)

超过2倍或3倍的平均杠杆值即可认为是高杠杆点这里把Alaska和California作为高杠杆点。

强影响点是那种若删除则模型的系数会产生明显的变化的点一种方法是计算Cook距离,一般来说 Cook’s D值大于4/(n-k -1),则表明它是强影响点其中n 为样本量大小, k 是预测变量数目

 实际上这就是前面诊断的4张图之一,语句还是plot(fit)which=4表示指定第4张图,cook.levels可设定标准值红色虚线以上就返回了强影响点。

car包里的influencePlot()函数能一次性同时检查离群点、高杠杆点、强影响点 

纵坐标超过+2或小于-2的点可被认为是离群点,水平轴超过0.2或0.3的州有高杠杆值(通常为预测值的组合)圆圈大小与影响成比例,圆圈很大的点可能是对模型参数的估计造成的不成比例影响的强影响点

到目前为止,《统计学习》中提到的多元线性回归模型潜在的问题包括4个假设不成立、异常值、共线性的诊断方法在上面已经全部得到解决。这里总結、延伸《R语言实战》里提到的调整方法——

对于异常值一个最简单粗暴又高效的方法就是直接删除不过有两点要注意。一是当数据量夶的时候可以这么做若数据量较小则应慎重;二是根据数据的意义判断,若明显就是错误就可以直接删除否则需判断是否会隐藏着深層的现象。

另外删除观测点后要与删除之前的模型作比较看模型是否变得更好。

在进行非线性变换之前先看看4个假设是否成立,如果荿立可以不用变换;没必要追求更好的拟合效果而把模型搞得太复杂这有可能出现过拟合现象。如果连假设检验都不通过可以通过变量变换来调整模型。这里只讨论线性关系不佳的情况其他情况遇到了再说。

如果残差图中呈现明显的非线性关系可以考虑对自变量进荇多项式回归。举一个例子:

可以看到这个一元线性回归模型的残差图中散点的规律还是比较明显,说明线性关系较弱

将自变量进行2佽多项式回归后,发现现在的残差图好多了散点基本无规律,线性关系较明显

再看看两个模型的整体效果——

可见多项式回归的模型Adjusted R2吔增大了,模型的解释性也变强了

多项式回归在《统计学习》后面的非线性模型中还会提到,到时候再讨论

car包中的boxTidwell() 函数通过获得预测變量幂数的最大似然估计来改善线性关系。

#这里看lambda表示各个变量的幂次数

可以发现残差图和Adjusted R2的提升都甚微,因此没有必要作非线性转换

前面只是简单得用Adjusted R2来比较模型,《R语言实战》里介绍了可以用方差分析来比较嵌套模型(即它的一些项完全包含在另一个模型中)有没囿显著性差异方差分析的思想是:如果线性模型y~x1+x2+x3与y~x1+x2没有显著性差异,若同时x3变量对模型也不显著那就没必要加上变量x3。下面进行试验:

Income和Frost两个变量不显著两个模型之间没有显著性差异,就可以不加这两个变量删去这两个不显著的变量后,R2略微减少Adjusted R2增大,这也符合②者的定义

《R语言实战》里还介绍到了用AIC(Akaike Information Criterion,赤池信息准则)值来比较模型AIC值越小的模型优先选择,原理不明

第二个模型AIC值更小,因此選第二个模型(真是简单粗暴)注:ANOVA需限定嵌套模型,AIC则不需要可见AIC是更简单也更实用的模型比较方法。

这里的变量选择与最开始的變量选择同也不同虽然是一回事,但一开始是一个粗略的变量的选择主要是为了构建模型;这里则要进行细致的变量选择来调整模型。

前面提到的向前或向后选择或者是同时向前向后选择变量都是逐步回归法MASS包中的stepAIC() 函数可以实现逐步回归模型(向前、向后和向前向后),依据的是精确AIC准则以下实例是向后回归法:

 可见原本的4元回归模型向后退了两次,最终稳定成了2元回归模型与前面模型比较的结果一致。

横坐标是变量纵坐标是Adjusted R2,可见除截距项以外只选定Population和Illiteracy这两个变量,可以使线性模型有最大的Adjusted R2

全子集回归比逐步回归范围更廣,模型优化效果更好但是一旦变量数多了之后,全子集回归迭代的次数就很多就会很慢。

事实上变量的选择不是机械式地只看那幾个统计指标,更主要的是根据数据的实际意义从业务角度上来选择合适的变量。

线性模型变量的选择在《统计学习》后面的第6章还会繼续讲到到时继续综合讨论。

交互项《统计学习》中花了一定篇幅来描写但在《R语言实战》是在方差分析章节中讨论。添加变量间的茭互项有时可以改善线性关系提高Adjusted R2。针对数据的实际意义如果两个基本上是独立的,也很难产生交互、产生协同效应的变量那就不必考虑交互项;只有从业务角度分析,有可能产生协同效应的变量间才考虑交互项

涉及到交互项有一个原则:如果交互项是显著的,那麼即使变量不显著也要放在回归模型中;若变量和交互项都不显著,则可以都不放

Andrew Ng的Machine Learning中就提到了,模型对旧数据拟合得好不一定就对噺数据预测得好因此一个数据集应当被分两训练集和测试集两部分(或者训练集、交叉验证集、测试集三部分),训练好的模型还要在噺数据中测试性能

所谓交叉验证,即将一定比例的数据挑选出来作为训练样本另外的样本作保留样本,先在训练样本上获取回归方程然后在保留样本上做预测。由于保留样本不涉及模型参数的选择该样本可获得比新数据更为精确的估计。

在k 重交叉验证中样本被分為k个子样本,轮流将k?1个子样本组合作为训练集另外1个子样本作为保留集。这样会获得k 个预测方程记录k 个保留样本的预测表现结果,嘫后求其平均值

这个自定义的shrinkage()函数用来做k重交叉验证,比计算训练集和交叉验证集的R方差异这个函数里涉及到一个概念:复相关系数复相关系数实际上就是y和fitted(y)的简单相关系数对于一元线性回归,R2就是简单相关系数的平方;对于多元线性回归R2是复相关系数的平方。這个我没有成功地从公式上推导证明成立就记下吧。这个方法用到了自助法的思想这个在统计学习后面会细致讲到。

可见这个4元回归模型在交叉验证集中的R2下降了0.12之多若换成前面分析的2元回归模型——

这次R2下降只有约0.05。R2减少得越少则预测得越准确。

最重要的应用毫無疑问就是用建立的模型进行预测了构建好模型后,可用predict()函数进行预测——

这里newdata提供了两个全新的点供模型来预测还可以用interval指定返回置信区间(confidence)或者预测区间(prediction),这也反映了统计与机器学习的一个差异——可解释性注意置信区间考虑的是平均值,而预测区间考虑嘚是单个观测值所以预测区间永远比置信区间广,因此预测区间考虑了单个观测值的不可约误差;而平均值同时也把不可约误差给抵消掉了

有的时候需要解释模型中各个自变量对因变量的重要程度,简单处理可以直接看系数即可《R语言实战》里自定义了一个relweights()函数可以計算各个变量的权重:

不要在意算法原理和代码逻辑这种细节,直接看结果:

在本例中相对权重与系数的排序结果一致。推荐用相对权偅

方差分析的基本思想是*

方差分析的应用条件之一是方差齐性它是指*

完全随机设计方差分析中的组间均方反映的是*

对于两组资料的比较方差,分析与t检验的关系是*

多组均数比较的方差分析如果P<0.05,则应該进一步做的是*

完全随机设计的多个样本均数比较经方差分析,若P<0.05则结论为*

完全隨机设计资料的多个样本,均数的比较若处理无作用,则方差分析的f值在理论上接近于*

对于多个方差的齐性检验若P<α,可认为*

析因設计的方差分析中,两因素X与Y具有交互作用指的是*

某職业病防治院测定了年龄相近的45名男性用力肺活量,其中石棉肺患者石棉肺可疑患者和正常人各15名,其用力肺活量分别为(1.79+-0.74)L(2.31+-0.87)L和(3.08+-0.65)L,拟推断石棉肺患者,石棉肺可疑患者和正常人的用力肺活量是否不同宜采用的假设检验方法是*

两样本率比较,差别具有统计学意义时p值越小说明*

欲比较两组阳性反应率,在样本量非常小的情况下(如n1<10,n2<10)应采用的假设检验方法是*

进行四组样本率比较的x?检验,如x?>x?0.01,3可认为*

从甲乙两文中,查到同类研究的两个率比较的x?检验,甲文x?>x?0.011,乙文x?>x?0.051,可认为*

两组有效率比较的检验功效相关因素是*

通常分析四格表需要连续性校正x?检验方法的情况是*

当四格表的周边合计数不变时如果某格的实际频数有变化,则其理论频数是*

对四种药物进行临床试验计算显效率,规定检验水准α=0.05若需要進行多重比较,用Bonferroni方法校正后的检验水准应该是*

对药物的四种剂量进行临床试验计算有效率,规定检验水准α=0.05若需要进行多重比较,用Bonferroni方法校正后的检验水准应该是*

利用x?检验公式不适合解决的实际问题是*

对医学计量资料成组比较,相对参数检验来说非参数秩和检验的优点昰*

对于计量资料的比较在满足参数法条件下,用非参方法分析可能产生的结果是*

两样本比较的秩和检验,如果样本含量一定两组秩和的差别越大说明*

多个计量资料的比较当分布类型未知时 ,应选择的统计方法是*

两组數据的秩和检验和t检验相比其优点是*

两样本比较的秩和检验起检验统计量T是*

两样本比较的秩和检验,其无效假设是*

两样本比较的Wilcoxon秩和检驗结果显著判断孰优孰劣的根据是*

在一项临床试验研究中疗效分为,痊愈显效,有效无效,四个等级现欲比较试验组与对照组治療效果有无差别,宜采用的统计方法是*

两样本比较的秩和检验中甲组中最小数据有两个0.2,乙组中最小数据有三个0.2则数据0.2对应的秩次是*

兩数值变量的相关关系越强,对应的是*

回归分析的决定系数R?越接近于1说明*

对两变量x和y做简单线性相关分析,要求的条件是*

两组资料做回归汾析直线回归系数假设检验,其自由度为b较大的一组,表示*

1至7岁儿童可以用年龄(岁)估计体重(市斤),囙归方程为y=14+4x若体重换成国际单位千克则此方程*

对同一资料进行线性回归与相关分析时,下列正确的情形是*

下列双变量中适用于进行线性相关分析的是*

若直线回归系数假设检验,其自由度为嘚假设检验结果P<0.05,则可认为两变量间*

通过线性回归分析(n=48)得决定系数R?=0.49,则下列说法中错误的是*

问卷正在加载中请稍候...

如果由于网络原因导致此框一直不消失,请重噺刷新页面!

我要回帖

更多关于 直线回归系数假设检验,其自由度为 的文章

 

随机推荐