spss如何做线性回归时间趋势的线性回归

您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
时间序列数据的基本回归分析祥解.ppt39页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:300 &&
时间序列数据的基本回归分析祥解.ppt
你可能关注的文档:
··········
··········
10.5 趋势和季节性 描述有趋势的时间序列 很多经济时间序列都有随着时间而上升的共同趋势。 忽略两个序列按相同或相反趋势延伸的事实,会导致如下错误结论:认为一个变量的变化由另一个变量的变化所致。在很多情况下,两个时间序列过程表现出相关性仅仅是因为,由于某些无法观测因素的作用,二者具有共同的时间趋势而已。 线性时间趋势(linear time trend):各期变化值相同
指数趋势(exponential trend): 各期具有相同的平均增长率 在回归分析中使用趋势变量 仅因为每个变量都随着时间的推移而增长,便得到两个或多个趋势变量之关系的现象,便是谬误回归(spurious regression problem) 考虑一个yt受两个可观测因素xt1和xt2影响的模型。除了这两个变量以外,还有一些无法观测的因素也随着时间的推移而系统地增长或缩减。满足以上特征的模型为:
它可以理解成xt3 t是的多元线性回归。 如果上式省略掉t而只做yt对xt1和xt2的回归,一般会得到
的偏误估计值。 以下例说明时间趋势如何导致谬误回归。
例10.7 住房投资与价格 对美国年住房投资和住房价格指数的年度观测。 文件:HSEINV.RAW 变量含义:
invpc:真实人均住房投资(以千美元计);
price:住房价格指数(1982 1)。 命令1:reg linvpc lprice 结果1: 人均投资对价格的弹性非常大,且统计上显著;但我们要小心此处invpc和price都有上升的趋势。 命令2:reg linvpc t reg lprice t 结果2: 命令3:reg linvpc lprice t 结果3: 趋势系数和标准误(虽然不一定可靠)揭示了上升趋势 现在结论大不相同:估计出的价格弹性是负的,而且在统计上也非显著异于0。 因而前一回归方程为invpc和price之间的谬误关系。 在有些情形中,若自变量和因变量有
正在加载中,请稍后...关注今日:66 | 主题:176729
微信扫一扫
扫一扫,下载丁香园 App
即送15丁当
【统计方法欠佳】患病率随时间变化的性别趋势差异
页码直达:
想比较男性的患病率和女性的患病率随时间变化的性别趋势差异?请问用哪种统计方法?SCI二次修改,回复评审的问题,非常着急,谢谢
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
如果男性发病率和时间, 女性发病率和时间------是线性回归的话 那也就是比较这两条回归的直线是否一样---分别对斜率和截距检验一下就完了,在spss里面用协方差来做。另外,你的图能够再小一些吗? 注意你这里的率不是加权那种率,是一个连续性变量你这个男性,女性 第一个的斜率检验---就不一样,就没必要做截距检验就是说 男女的直线回归肯定不是一回事,有区别,不知道这个结果合不合你的口味?
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
四叶虫 edited on
四叶虫 如果男性发病率和时间, 女性发病率和时间------是线性回归的话 那也就是比较这两条回归的直线是否一样---分别对斜率和截距检验一下就完了,在spss里面用协方差来做。另外,你的图能够再小一些吗? 注意你这里的率不是加权那种率,是一个连续性变量你这个男性,女性 第一个的斜率检验---就不一样,就没必要做截距检验就是说 男女的直线回归肯定不是一回事,有区别,不知道这个结果合不合你的口味?老师,您好,非常感谢您。是这样的,在原稿中,我们写了男性的患病率随时间的变化趋势,比女性的患病率岁时间变化的趋势快,但是没有注明用的什么统计方法,也没有写统计量,直接写了个P值。现在审稿人问统计方法是什么?头大了。用协方差可以解决是吧,谢谢您。我试试,如果不行再指教。非常感谢
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
哦,原来是这样,刚才没认真看,我很好奇,不知道检验方法怎么会有P值?我做过,男性、女性 患病率随时间的变化趋势都可以用直线回归做出来,图很漂亮,相关系数也不错。所以检验是两条回归直线是否一样,而他的问题似乎不关心截距,只关心斜率,你的斜率是不一样的---这个用协方差做,SAS中可以编程做,而spss 线性回归中没有两条直线回归的比较,只能借用协方差思想。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
四叶虫 edited on
谢谢老师 sas编程很少做 请问老师有相关程序吗?非常感谢
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
哦,原来是这样,刚才没认真看,我很好奇,不知道检验方法怎么会有P值? 如果直接用两个回归的β值比较说有差别可以理解,说明你没有用统计思路去检验,可是你居然给了P值,而审稿人就不依不饶的要方法,魔高一尺道高一丈啊,所以我也很好奇,不知道检验方法怎么会有P值,你先坦白一下。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
四叶虫 edited on
用可信区间可以简单推断 老师
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
可信区间不交叉 就说明p小于0.05
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园| 时间排序
看看数据是不是相差甚多,即所谓奇异数据,如果是就要归一化
看看数据是不是相差甚多,即所谓奇异数据,如果是就要归一化
随便找本统计(计量)书好好看看,嗟来之食好吃难消化,尤其是这种没啥难度的东西……
随便找本统计(计量)书好好看看,嗟来之食好吃难消化,尤其是这种没啥难度的东西……
p value, t test&br&&a href=&///?target=https%3A//en.wikipedia.org/wiki/Z-test& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Z-test&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=https%3A//en.wikipedia.org/wiki/Statistical_hypothesis_testing& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Statistical hypothesis testing&i class=&icon-external&&&/i&&/a&
p value, t test
楼上赵大神已经有理有据了,我再画蛇添足一下:统计学的本质在于展示数据,也就是说把数据通过特定手段让大家能够得到尽量多地信息。在这里,与“展示数据”相对应的不是“隐藏数据”,而是指“解释数据”。这里的“解释数据”不是通常意义下地数据分析,指的是通过数据得到数据背后隐含的客观规律。&br&&br&比如说,给定一组数据,不使用统计学工具的话,它们只是一组离散的数字,不会告诉我们任何有意义的信息。但如果用统计工具,首先我们就能求到均值和方差,至少我们就知道这组数据的聚集程度和离散程度是怎样的,注意,这里是指让我们“知道(了解)”数据的聚集程度和离散程度,但并不能解释这组数据“为何”会有这样的聚集趋势和离散趋势。一个很经典的身高回归的例子,通过数据,我们仅仅只能通过统计学来展示出数据的规律性,即人群中的后代身高会出现“回归”现象,但是统计学不能告诉你(生物学上)为何会有这种现象的发生,即使我们加入尽量多的协变量到模型,即使我们还能通过种种统计学工具删选出显著的协变量。&br&&br&另外一种角度,统计学是一种面向样本的方法论,现实情况迫使我们只能得到样本,而不是总体。所以即使统计学向你“解释数据”,也是解释的样本数据,不会告诉你总体的规律。
楼上赵大神已经有理有据了,我再画蛇添足一下:统计学的本质在于展示数据,也就是说把数据通过特定手段让大家能够得到尽量多地信息。在这里,与“展示数据”相对应的不是“隐藏数据”,而是指“解释数据”。这里的“解释数据”不是通常意义下地数据分析,指…
&img src=&/v2-5fcdaadbecf67_b.png& data-rawwidth=&666& data-rawheight=&392& class=&origin_image zh-lightbox-thumb& width=&666& data-original=&/v2-5fcdaadbecf67_r.png&&
logistic是GLM,用的是MLE估计的&br&Linear model用的是least square estimate
logistic是GLM,用的是MLE估计的 Linear model用的是least square estimate
对explantery variable是indicator的话,应该是没有限制的
对explantery variable是indicator的话,应该是没有限制的
看怎么定义因果吧,如果因果关系表达为一个变量变动,另一个变量跟着变动,且这个变量不变动,另一个变量也不变动的话。&br&&br&这种关系还是可以用线性回归的办法判断的。&br&&br&如果是一个变量通过其他变量起作用然后作用于另一个变量,可以用结构方程、路径分析、交互项判断。&br&&br&如果是一个变量在另一个变量的某个取值范围内起做作用,可以用越阶函数回归或者分位数回归来判断。&br&&br&但是这一切都建立在因果关系可以用变量间相互变动来表达出来的基础上,相关是个比较好克服的问题,多加几个控制变量,多做几个工具变量,多做几个内生变量,都可以更加靠近实际的因果关系。&br&&br&关键是,你想要什么程度的因果捏?
看怎么定义因果吧,如果因果关系表达为一个变量变动,另一个变量跟着变动,且这个变量不变动,另一个变量也不变动的话。 这种关系还是可以用线性回归的办法判断的。 如果是一个变量通过其他变量起作用然后作用于另一个变量,可以用结构方程、路径分析、交互…
业余统计学研究者 W. Gosset 以笔名 &i&Student&/i& 发表关于 &i&T&/i& 分布的统计学史地标性文献。在回归模型中,要图示正态分布的残差是否偏大,分母的尺度基准是抽样误差总体标准差&img src=&///equation?tex=%5Csigma& alt=&\sigma& eeimg=&1&&乘比例常数,实际应用中&img src=&///equation?tex=%5Csigma& alt=&\sigma& eeimg=&1&&总是未知,分母用的是它的点估计&i&s&/i&。此时得到的不再是标准正态分布,而是&i&T&/i&分布。这种标准化 / &i&Standardized&/i& 不再是标准正态化。称之为 &i&Studentized&/i&,可能因为 &i&T-ized&/i& 英文会显得很古怪。中文如果翻译为「&i&T&/i&化残差」,其实比「学生化残差」更自然。&br&&br&如果是统计课讲师王小波来翻译,&i&Student&/i& 肯定得译为「晚生」。他的专栏就叫《晚生闲谈》 ——&br&&blockquote&王小波给《三联生活周刊》写杂文的时候,「三联」还是双月刊。1996年,「三联」成为双周刊后,王小波应约写专栏《晚生闲谈》。在一年多的时间里,最后一页的《晚生闲谈》成为「三联」形象的不可缺少的一部分。「没有王小波文章的《三联生活周刊》总是有一两分不像」(林白语)。朱伟(《三联生活周刊》主编)认为王小波的文字是真正的专栏文章,不做简单的评判,总有很好的角度。「三联」最初找过余华、苏童作文讨论生活,总觉得口味不大合适。王小波之后,再找专栏作家仍然觉得很困难。&br&&a href=&///?target=http%3A///weekend/culture/.htm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&南方周末——[文学]作为专栏作家的王小波&i class=&icon-external&&&/i&&/a&&/blockquote&
业余统计学研究者 W. Gosset 以笔名 Student 发表关于 T 分布的统计学史地标性文献。在回归模型中,要图示正态分布的残差是否偏大,分母的尺度基准是抽样误差总体标准差\sigma乘比例常数,实际应用中\sigma总是未知,分母用的是它的点估计s。此时得到的不再…
假设&img src=&///equation?tex=P_%7B1%7D+%2CP_%7B2%7D+& alt=&P_{1} ,P_{2} & eeimg=&1&&是幂等的,不用正交&br&如果&img src=&///equation?tex=P%3D%5Cleft%28+P_%7B1%7D++%2BP_%7B2%7D+%5Cright%29+& alt=&P=\left( P_{1}
+P_{2} \right) & eeimg=&1&&是幂等的,&br&&ol&&li&可以得出&img src=&///equation?tex=P_%7B1%7D+P_%7B2%7D+%2BP_%7B2%7D+P_%7B1%7D+%3D0& alt=&P_{1} P_{2} +P_{2} P_{1} =0& eeimg=&1&&&br&&/li&&li&那&img src=&///equation?tex=P_%7B1%7D+%5Cleft%28+P_%7B1%7D+P_%7B2%7D+%2BP_%7B2%7D+P_%7B1%7D++%5Cright%29+%3D0& alt=&P_{1} \left( P_{1} P_{2} +P_{2} P_{1}
\right) =0& eeimg=&1&&;&img src=&///equation?tex=%5Cleft%28+P_%7B1%7D+P_%7B2%7D+%2BP_%7B2%7D+P_%7B1%7D++%5Cright%29+P_%7B1%7D+%3D0& alt=&\left( P_{1} P_{2} +P_{2} P_{1}
\right) P_{1} =0& eeimg=&1&&&br&&/li&&li&乘进去用幂等化简一下,然后两个式子相减就得到&img src=&///equation?tex=P_%7B1%7D+P_%7B2%7D+-P_%7B2%7D+P_%7B1%7D+%3D0& alt=&P_{1} P_{2} -P_{2} P_{1} =0& eeimg=&1&&&br&&/li&&/ol&再结合1里面的式子就得出了&img src=&///equation?tex=P_%7B1%7D+P_%7B2%7D+%3DP_%7B2%7D+P_%7B1%7D+%3D0& alt=&P_{1} P_{2} =P_{2} P_{1} =0& eeimg=&1&&&br&反过来推简单~~
假设P_{1} ,P_{2} 是幂等的,不用正交 如果P=\left( P_{1} +P_{2} \right) 是幂等的, 可以得出P_{1} P_{2} +P_{2} P_{1} =0 那P_{1} \left( P_{1} P_{2} +P_{2} P_{1} \right) =0;\left( P_{1} P_{2} +P_{2} P_{1} \right) P_{1} =0 乘进去用幂等化简一下…
&b&一、简单的说:方便处理性质好。&/b&但是,最小二乘也是有缺点的。&br&&b&二、你得先确定,你需要达到的目标,然后在来评价方法。&/b&如果不知道目标,就不可能很好的评价方法。也就是,你得知道你为何做回归,回归的目标是什么,各方法的优缺点等。在现行计算技术、数学工具等限制下,最小二乘法,能够很好的满足我们的要求。当然,目标变了,方法也就得跟着变。&br&&b&三、推荐《A guide to econometrics 》 Peter Kennedy。&/b&一些答主写的不错,但是,如果想更深入而系统的了解,建议看看这本书。这本书,在思想上写的很好,而且数学很少。
一、简单的说:方便处理性质好。但是,最小二乘也是有缺点的。 二、你得先确定,你需要达到的目标,然后在来评价方法。如果不知道目标,就不可能很好的评价方法。也就是,你得知道你为何做回归,回归的目标是什么,各方法的优缺点等。在现行计算技术、数学…
举个例子把,只有一个自变量 &i&家庭背景 &/i&的情形,因变量&i&事业成就&/i& 被拆分成 与&i&家庭背景 &/i&相关为1的部分(&i&Fitted&/i&)+ 与&i&家庭背景 &/i&不相关的部分(&i&Residuals&/i&)。题主所说的Regression就是 &i&Fitted 。&/i&回归方程或者几乎绝大多数统计模型,都在作下面的分解。&br&&br&&img src=&///equation?tex=Observed+%3D+Fitted+%2B+Residuals& alt=&Observed = Fitted + Residuals& eeimg=&1&&&br&&br&ANOVA 报告这两个部分的波动大小,这里被分解的波动是 &i&SS &/i&(&i&Sum of Squares of Deviations&/i&)。严格说是 和方分析 而不是 方差分析。其中的离差 &i&Deviation &/i&,就是一组数相对自己均值的偏移。&br&&br&这件事在几何上有非常直观的意义。如果把离差运算写成下标,注意到残差的均值是0,下面是一个完美的 &b&弦&/b& = &b&股&/b& + &b&勾&/b& 的 &i&n &/i&元空间两个垂直向量的相加关系,&i&n &/i&就是样本量。所以&i&SS&/i& 就是它们各自的长度的平方。&br&&br&&img src=&///equation?tex=Observed_%7BDev%7D+%3D+Fitted_%7BDev%7D+%2B+Residuals& alt=&Observed_{Dev} = Fitted_{Dev} + Residuals& eeimg=&1&&&br&&br&ANOVA 作了向量的正交分解、向量长度平方的分解,还有第三个分解是维度(&img src=&///equation?tex=df& alt=&df& eeimg=&1&&)的分解。 &i&n&/i& 维空间被分解为 1 (均值维度) + &i&p &/i&(&i&p&/i&个自变量线性组合,预测值比均值多出来的空间维度) + 残差的 (&i&n &/i&-1 - &i&p&/i&) 维度。&br&&br&ANOVA 表格把其中的几何对象报告了一番。至于 &i&F &/i&检验,&img src=&///equation?tex=R%5E2& alt=&R^2& eeimg=&1&&等等统计报告里常见的东西,都假定读者心里头已经有这样一个 &i&n&/i&-1 维空间里的直角三角形勾股弦。比如这条勾(&i&Residuals&/i&),它的长度平方平均到它所占据的每个维度上,用来估计回归式抽样误差&img src=&///equation?tex=%5Cvarepsilon& alt=&\varepsilon& eeimg=&1&&的总体方差&img src=&///equation?tex=%5Csigma%5E2& alt=&\sigma^2& eeimg=&1&&。&br&&br&觉得读懂了可以小测一下。&i&n &/i&个观测值作为原坐标,在 &i&n &/i&维空间中对应红箭头。点开评论可以看答案&br&&img src=&/v2-53efa41c095ca_b.png& data-rawwidth=&714& data-rawheight=&552& class=&origin_image zh-lightbox-thumb& width=&714& data-original=&/v2-53efa41c095ca_r.png&&
举个例子把,只有一个自变量 家庭背景 的情形,因变量事业成就 被拆分成 与家庭背景 相关为1的部分(Fitted)+ 与家庭背景 不相关的部分(Residuals)。题主所说的Regression就是 Fitted 。回归方程或者几乎绝大多数统计模型,都在作下面的分解。 Observed …
因为受约束的解集必然是不受约束的解集的子集啊,子集的极值自然比不上全集的极值……
因为受约束的解集必然是不受约束的解集的子集啊,子集的极值自然比不上全集的极值……
其他回答干货很足,我就简单说一下吧...&br&有时候,光看p-value,单个变量可能是无意义的,但是当它和你模型里的另一个变量结合在一起,对于模型来说是 jointly significant. 如果是这样,这个变量还是要保留的. 建议做一个 F-test, 测试一下.
其他回答干货很足,我就简单说一下吧... 有时候,光看p-value,单个变量可能是无意义的,但是当它和你模型里的另一个变量结合在一起,对于模型来说是 jointly significant. 如果是这样,这个变量还是要保留的. 建议做一个 F-test, 测试一下.
已有帐号?
无法登录?
社交帐号登录使用时间序列预测网站流量增长趋势(ARIMA) - 推酷
使用时间序列预测网站流量增长趋势(ARIMA)
在文章《浅析网站流量趋势预测》中,我们曾对网站的直接流量进行过分析和预测,直接流量整体较为平稳,但在工作日和周末存在较大差异。因此我们之前的方法是将工作日和周末的访问量数据分开处理,通过分布情况单独进行预估。这种方法得到的预测值范围较大,精确度也较差。本篇文章我们将使用时间序列的方法对网站直接流量的变化趋势进行预测。
下面是4月4日——5月1日的网站直接流量会话数据,我们在表格的周索引列中单独标明了工作日(weekday)和休息日(weekend)用以说明会话所属的类别。可以看出在这组数据中存在着明显的周末趋势,周末的会话数据要明显低于工作日的会话数据。
使用时间序列对数据进行分析和预测的第一步是观察数据的形态,因此我们将会话数据绘制到折线图中观察变化趋势。从直接流量变化趋势图上可以看出整体趋势较为平稳,没有明显的增长或下降。同时也能更明显的看出会话数据共分为4周,并且每一周都有明显的周末趋势。工作日每天的会话量在300—400之间,周末的会话量则为200以下,两者之间差距较大。如何对这两个差距较大的数据进行预测?我们使用一元线性回归的方法,一元线性回归可以反映一个因变量(Y)与一个自变量(X)之间的线性关系。对应到这里直接流量的会话就是因变量(Y),我们只需要再找到一个自变量(X)就可以建立一元回归线性方程来预测直接流量的变化趋势了。
从前面的趋势图中可以看出,直接流量整体趋势比较平稳,只有在周末的时候才会出现较大的变化,造成周末数据与工作日数据的差异。因此造成直接流量变化的主要原因是所在日期的周属性,当所在日期为工作日(weekday)时,会话数据在300-400之间。而当所在日期为周末(weekend)时,会话数据下降到200以下。我们将日期的周属性设定为自变量(X),取名“周变量”,这个周变量(X)共有两个取值,当日期为工作日时,取值为0,当日期为休息日时,取值为1。
设置好周变量后,我们在直接流量的源数据表中增加一列“周变量”,并按日期的周属性输入“周变量”的值。Weekday=0,weekend=1。现在我们有了因变量(Y)和自变量(X),可以使用一元线性回归建立方程求两者之间的关系。
通过Excel中的回归分析功能,将会话作为因变量(Y)输入,将“周变量”(X)作为自变量输入,我们获得了以下分析结果。在这个结果中,我们主要关注“周变量”的系数和截距(Intercept),通过这两个值可以建立“周变量”与会话的一元线性回归方程。
这是一元线性回归方程,我们将前面的分析结果代入到这个方程中,就可以计算出直接流量的值。其中y是直接流量的会话值,x是“周变量”的取值,a是“周变量”系数,b是截距。
前面说过,“周变量”有两个取值,工作日为0,休息日为1。因此在对直接流量进行预测时我们也分别按照日期的周属性取值来计算工作日和休息日的直接流量会话值,以下为两个取值的计算公式。
通过一元线性回归方程我们获得了直接流量在工作日和休息日的会话预测值,每天具体实际数据和预测数据展现在下面表格中。
将直接流量实际的会话数据与预测数据绘制成折线图进行对比,在较为平稳的趋势中预测数据较好的模拟并预测了直接流量中工作日和休息日的数据变化。
以上是一种较为简单且理想化的流量变化情况。实际工作中情况会更加复杂,直接流量除了自身的规律以外,还会受到外部因素的影响,呈现上升或下降的趋势。这时候,直接流量的整体趋势不再平稳,并且还同时掺杂自身的周末趋势。这种情况下如何对直接流量进行分析和预测呢?
下面是4月4日——5月1日的直接流量会话数据,由于有周末趋势存在我们同样增加了周索引列来标识会话所属日期的周属性。
第一步将直接流量的会话数据汇总折线图观察流量的形态。直接流量除了自身的周末趋势以外,还有一个明显的上涨趋势。我们在进行分析和预测时要兼顾直接流量的周末趋势和上涨趋势。这里一元线性回归已经无法满足我们的需求了,需要使用多元线性回归。多元线性回归是一元线性回归的升级版,可以反应一个因变量(Y)与多个自变量(X)之间的关系。这里直接流量的会话数据是我们要求的因变量(Y),周末趋势是一个自变量(X),另一个自变量(X)就是直接流量的增长趋势。
我们首先在直接流量的原始数据中增加两个字段作为两个自变量X。第一个字段是周变量,设置的方法和取值范围与前面例子中介绍的完全一致。第二个字段是趋势变量,用来描述直接流量的增长趋势。在前面的折线图中已经看到直接流量呈线性增长,因此我们使用从1到28作为趋势变量中每一天的取值。现在我们有了因变量(Y)和两个自变量(X),可以通过建立多元线性回归方程来计算并预测直接流量的会话值了。
使用Excel中的回归功能,将会话作为因变量(Y)输入,将趋势变量和周变量作为自变量(X)输入,获得以下分析结果。在这个结果中我们主要关注三个值,截距(Intercept),趋势变量系数和周变量系数。
这是多元线性回归方程,我们将前面的分析结果代入到这个方程中,就可以获得直接流量的值。其中y是直接流量的会话值,x1是趋势变量,x2是周变量,b1是趋势变量系数,b2是周变量系数,a是截距。
通过多元线性回归方程我们获得了直接流量的预测值,每天的实际数据和预测数据展现在下面表格中。
将直接流量实际的会话数据与预测数据绘制成折线图进行对比,通过多元线性回归预测数据同时兼顾了直接流量中的周末趋势和整体的增长趋势。如果流量中还包括有其他影响因素只需通过绘制折线图观察影响因素的变化趋势和规律,然后增加相应的自变量(X)即可。
通过时间序列我们对直接流量的增长趋势进行了预测,很多时候除了知道趋势以外我们还希望对流量进行分解,了解影响流量变化的因素,这些因素在变化中所起的作用以及消除影响因素后流量真实的变化情况。我们使用时间序列对直接流量进行分解。下面是直接流量在最近4周时间的会话数据。
直接流量的变化可能受多个因素影响。例如前面的例子中,直接流量自身有明显的周末趋势,同时,受外部因素影响还有明显的增长趋势,此外可能还有一部分难以解释的随机波动因素。因此,我们将直接流量分为三个主要部分,分别为趋势值,周因素和随机波动。并对直接流量按这三部分进行分解。以下是时间序列乘法分解模型。这里需要说明的是,除了趋势值以外,周因素和随机波动将被分解为相对度量。数值大于1表示他们的影响在趋势值之上,数值小于1表示他们的影响在趋势值以下。
直接流量有明显的周末趋势,因此首先我们通过移动平均来消除直接流量中的周末趋势。由于周末趋势的变化是以周为单位的,因此我们选择7天的数据进行移动平均计算。下面是移动平均的计算公式。
我们按照移动平均公式对直接流量消除周末趋势,只保留直接流量的趋势值。以下是移动平均的计算结果。
移动平均通过对7天数据的平均对直接流量进行了平滑处理,消除了周末趋势及随机波动的影响,获得了直接流量的趋势值。下图是直接流量的实际值与趋势值的对比。
获得直接流量趋势值后,我们可以通过时间序列乘法分解模型获得周因素和随机波动的相对度量。将时间序列乘法分解模型两边同时除以趋势值,可以获得周因素和随机波动的组合度量。
分别将每一天的直接流量会话实际值除以移动平均后的趋势值,获得了周因素和随机波动的组合度量值。下表中汇总了整个时间段的周因素和随机波动的组合度量。
我们根据每一天的周因素和随机波动组合度量值计算出周指数,方法是将上表星期索引中同一天的值进行平均。下表是直接流量一周的指数值。其中大于1表示周因素的影响在趋势值之上,小于1表示周因素的影响在趋势值之下。从下表中可以明显看出,周一到周五周因素的影响都要大于趋势,而周末两天周因素的影响小于趋势。
将周指数还原到每一天中,获得直接流量每一天会话的星期指数。使用实际会话值除以星期指数获得直接流量消除星期因素的会话量数据。也就是直接流量排除周末因素影响后的变化趋势。
将消除周末趋势后的直接流量变化趋势绘制到折线图上,使用趋势线来拟合消除周因素影响的直接流量与时间周期。到目前为止我们分解出了直接流量中排除周因素和随机波动的会话值,排除周因素的会话值以及周因素对于趋势值的影响。下面我们将使用排除周因素的会话值对直接流量进行预测,并与周因素进行整合,预测出带有周因素的直接流量变化趋势。
我们将消除周因素后的直接流量会话值作为因变量(Y),将时间作为自变量(X),通过一元线性回归来描述会话值与时间的关系。将因变量(Y)与自变量(X)输入到回归分析中,获得以下结果。其中星期ID是时间X的系数,Intercept是截距。
将回归分析的结果导入到一元线性回归方程,计算出排除周因素的直接流量预测值。下表中显示了消除周末因素的直接预测值的计算结果。
将消除周末因素的预测值乘以星期指数,计算出直接流量实际值的预测趋势,下表中显示了计算结果和预测值。
将直接流量的实际值与增加周因素的预测值绘制到折线图中,由于我们是先剥离出了直接流量的趋势值,然后在趋势值和随机波动值上增加的周因素,因此预测值同时兼顾了直接流量的增长趋势和周末趋势。文章开始部分的预测相比,更加符合直接流量的真实变化趋势。
本篇文章的名字是使用时间序列预测网站流量增长趋势,但整篇文章只介绍了对直接流量的预测。其实这些方法适用于任何一种流量渠道,找到这些流量渠道的规律和影响因素就可以套用本文中的方法对流量趋势进行分解和预测。
—【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】—
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致

我要回帖

更多关于 1stopt如何非线性回归 的文章

 

随机推荐