从中可得出残差神经网络具有哪两个特点 并解释模型是否一定经过点x,y

对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是()A.由样本数据得到的回归方程必过样本点的中心B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D.在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适,带状区域越窄,说明回归方程的预报精确度越高;C略山东省济宁市汶上一中学年高二上学期期中检测数学文答案第02章 典型回归模型及其应用_甜梦文库
第02章 典型回归模型及其应用
第二章 回归模型及其应用 [学习目标]? ? ? ? 熟悉一元回归和多元回归模型及其运用; 掌握线性回归结果的 t 检验和 F 检验; 熟悉模型的稳定性检验; 熟悉虚拟变量的运用。带格式的近年来,国际国内金融计量方法有了飞速的发展,新的计量模型和理论层出不穷,然而 作为计量经济学的经典回归理论, 在经济计量中仍有广泛的运用。 它主要被用来描述和估计 出某一选定变量与其他一组变量之间的理论关系, 并在金融投资领域得到广泛应用, 如对经 典投资理论 CAPM 模型,APT 模型,IPO 折价等进行实证研究,所以说我们在更深入地学习 金融计量学之前, 先必须要对经典回归模型进行全面牢固的掌握。 本章先介绍一元回归和多 元回顾模型的估计和检验,然后再介绍如何使用虚拟变量以及如何检验模型的稳定性。第一节 一元线性回归模型及其应用一元线性回归模型是用于描述两个变量之间的线性关系的计量模型, 它是多元线性回归 模型和非线性回归模型的基础, 在金融实证分析中有较广泛的运用, 因此牢固掌握一元回归 模型有助于进一步学习多元线性回归模型和非线性回归模型。一、一元线性回归模型一元线性回归模型可表达为yi = a + β xi + μi (t = 1, 2,,T )(2.1)y 为被解释变量或因变量; x 为解释变量或自变量;ui 为误差项或扰动项,该项表示 y变化中未被 x 所解释的部分; T 为样本个数。 为了使参数的估计量具有比较好的性质,通常我们需要对于模型(2.1)提出若干假定。 如果实际模型满足这些假定, 在估计模型的参数值时, 普通最小二乘法就是一种比较适用的 估计方法。 古典线性回归模型包含一系列基本假设,这些假设包括: (1)随机误差项具有零均值和同方差性,即 E(?i ) = 0,Var(?i ) =σ2(2)随机误差项之间不相关,即 E(?i , ?j ) = 0, ? i ≠ j,i、j = 1, 2, …, T (3)解释变量 x 与随机误差项不相关,即 E(xi , ?j ) = 0, ? i ≠ j,i、j = 1, 2, …, T (4 ) 随机误差项 (random error term) 服从均值为零, 同方差的正态分布, 即 ?i~N(0, σ ) (5)一般假定解释变量 x 具有非随机特征,这个假定说明被解释变量 y 的概率分布具2有均值: E ( yi xi ) = E ( a + β xi + ui ) = a + β xi 以上假设称为线性回归模型的经典假设或者高斯假设,满足该假设的线性回归模型,也 称为经典线性回归模型。在实际建模过程中,除了随机干扰项的正态假设之外,对模型是否 满足其它假设都需要进行检验。29 在以上的假定中,假设(1)意味着 Y 的观测值有可能分布在直线的两旁。而 E (Yi ) = a + β X i (2.2) 的分布趋势大致上同直线 Y = a + β X 一致, 比如说当 β & 0 时, 若 Xi 因此, 点( X i , Yi ) 较大,则 Yi 也较大。因此,我们把 a + β X 这一确定性部分称为 Y 的趋势部分。 用经济时间序列数据建立模型时,关于误差项同方差并不一定合理。以 t 表示时间,建 立如下模型: Yi = a + β X i + μi (2.3) 像这样的模型,误差项的方差很多情况下与时间 t 相关。 关于假设(2) ,在模型(2.1)中,这意味着误差项 ut 是一个不相关的序列,即:E (ui u j ) = 0 ( i ≠ j )(2.4)在经济时间序列的场合,这是一个很严格的假定,在大多数的场合,误差项总存在着或 多或少的自相关性。对于存在自相关的时间序列,我们可以用广义差分法或者迭代法处理。 由于 Y 与 u 线性相关,因此 Y 本身也是随机变量。对于 X 的任何值, Y 将服从正态分 布, Yi 的统计分布完全能够用它的均值和方差来描述,也就是:E (Yi ) = E (a + β X i + ui ) E (Yi ) = a + β X i + E (ui ) E (Yi ) = a + β X i2 i(2.5)由于 a 和 β 是常数,并且 X i 是随机的,因此上式可以变为: (2.6)但是,我们假设 ui 的期望值为 0。因此(2.6)又可以变成: (2.7)由于 ui 的期望值为 0,所以 Yi 的方差,等于 u 的期望值,即存在:∑ (u ? 0)i2/ n = ∑ ui2 / n = E (ui2 ) = σ 2(2.8)因此, Yi 服从于正态分布 N ( a + β xi , σ 2 ) 。 这可以用图 2-1 进行说明。对于 X 的每一个值,都存在一个 Yi 的期望值,而 Yi 服从正态 分布,则我们可以估计 Yi 的概率,由此得到概率模型。图 2-1:普通最小二乘回归模型30 二、最小二乘法(OLS)最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离绝对值之和最小。 为了数学表达方便,剔除正负号的影响,上述原则可变为距离的平方和最小。假定根据这一?x 。 ?, ? 、β ?+β ? 原理估计得到的 a 、β 分别为 a 则直线可表达为 yi = a i 直线上的 yi 值记为 yi ,? i ,称为残差 称为拟合值(fitted value) 。如图 2-2(a)所示:实际值与拟合值的差记为 μ(residual) ,可以看作是随机误差项 μi 的估计值。 根据前面的定义,最小二乘法就是使得直线与各散点的距离的平方和最小,实际上是使 残差平方和(residual sum squares,简称 RSS )T? ∑ui =12 i最小化,即最小化RSS =?) ∑(y ? yi =1 i iT2=?x ) ??β ∑(y ? ai =1 i iT2(2.9)? 求偏导,并令其为零,即可得到如下结果: ? 、β 根据最小化的一阶条件,将上式分别对 a?=∑ β∑xxi yi ? Txy2 i? Tx 2(2.10) (2.11)?x ? = y ?β ayYY =a+βXyt ?i μ ?t y? Y ?Y i? ?Y Y iYβaOxi(a)xO(b)X图 2-2: OLS 的数据拟合 在普通最小二乘法中,能够最好地拟合数据的那条直线是通过最小化拟合预测值和真 实值之间误差项的平方和而绘制出来的。这可以通过图 2-2(b)来说明。对简单线性回归模型 , i = 1, 2,..., T ,对参数 α , β 及误差项 μ Y = α + β X + μ ,根据一组观测值( X i , Yi ) 的方差进行估计, 最简单常用的方法是最小二乘估计。 最小二乘法估计的思想是要求样本回? 与真实观测点 Y 的“总体误差”尽 归直线尽可能的拟合实际观测值,即回归直线上的点 Y i i可能的小。假设参数的值为 α 、 β ,则U i = Yi ? (α + β X i )31 表示了观测点( X i , Yi )同回归直线的一种偏差。最小二乘法要求对于参数 α , β 而言,? ,应该满足: ? ,β 其估计值 α? X )]2 = min [Y ? (α + β X )]2 ? +β Q = ∑ [Yi ? (α i i ? ∑ ii =1TTα ,β(2.12)i =1? X 是同各观测值点的纵向偏差平方和 ? +β 即,在所有可能的直线 Y = α + β X 中, Y = α最小的直线。 为了求解(2.12)中的最小值问题,我们记V (α , β ) = ∑ [Yi ? (α + β X i )]2i =1T(2.13)根据微积分的知识,当 V 对 α , β 的偏导数为零时, V 达到最小值,即以下两式成立:? X )] = 0 ? +β ?2∑ [Yi ? (α ii =1 TT(2.14) (2.15)? X )] X = 0 ? +β ?2∑ [Yi ? (α i ii =1接下来我们分别用 X 和Y 表示 X 和Y 两个样本的均值,从而解得:?= β同时,我们有∑ (Y ? Y )( Xi =1 iTi ? X)2∑(Xi =1Ti? X)1 = i =T∑ X Y ? TXYi i2 iT∑Xi =1(2.16)? TX2?x ? = y ?β a(2.17)? 。这里我们需要交代一个重要的概念, ? ,β 从而我们得到了 α ,β 的最小二乘估计量 α即“估计量”和“估计值”的区别。根据观测样本点( X i ,Yi ) ,i = 1, 2,..., T ,代入(2.16) 计算出来的结果是一个“估计值”或者称为“点估计” ,是参数的一个具体数值;当我们仅? 的表达式,这时候 α ? 是 X , Y 的函数,而( X , Y )是一组 ? ,β 仅把(2.16)看成是 β i i i i? 也具有随机性,此时我们称之为“估计量” ? ,β 随机观测值,所以 α 。 计量经济学中另外一种重要的估计方法是极大似然法。 最小二乘法的思想是, 随机抽取 n 组样本观测值之后,最合理的参数估计量应该使得模型能够最好地拟合样本数据;而极大 似然法的思想是, 当随机抽取 n 组样本观测值之后,最合理的参数估计量应该使得从模型中 极大似然法更本质地揭示了通过样本估计总体参数的内 抽取该 n 组样本观测值的概率最大。 在原理。计量经济学的发展,更多的是以极大似然法为基础的。 三、最小二乘估计量的性质最小二乘估法是十八世纪末由数学家高斯提出来的。 最小二乘法在许多学科领域内得到 应用,特别是在处理实验数据的时候。 当估计出模型参数之后, 我们需要考虑参数估计值的精确度, 即参数是否能够代表总体 参数的真实值。一般的,由于抽样波动的存在和所选择的估计方法不同,都会使得估计的参 数与总体参数的真值存在差距,因此我们需要考察参数估计量的性质,以衡量估计量的“好 坏” 。在一定的假设条件下,最小二乘估计有许多良好的性质,下面我们以一元回归模型 Y = α 0 + α1 X + μ 为例讲述最小二乘法的性质。? 0 ,α ?1 是参数 α 0 ,α1 的线性无偏估计。线性即估计量是另一随机 (1)线性无偏性:α32 变量的线性函数,无偏性即估计量的均值或者期望等于总体参数的真实值,要证明无偏性, 必须具有 E(?i ) = 0 这一假设前提。?1 的线性和无偏性,由(2.16) 下面,我们先来证明 α ,并注意到∑ (Y ? Y )( Xi =1 iTi? X ) = ∑ ( X i ? X )Yii =1T因此,?1 = ∑ [ αi =1TXi ? X∑ ( X i ? X )2i =1T]Yi = ∑ ωiYii =1T(2.18)?1 是 Y 的观测值的线性组合,即 α ?1 具有线性性,其中的组合系数 即αωi =具有性质Xi ? X∑(Xi =1 T iT(2.19)2i? X)∑ωi =1Ti= 0,T∑ω ( Xi =1i? X ) = ∑ ωi X i = 1i =1T(2.20)因此?1 ) = E (∑ ωiYi ) = E[∑ ωi (α 0 + α1 X i + μi )] E (αi =1 T i =1T= α 0 ∑ ωi + α1 ∑ ωi X i + ∑ ωi E ( μi )i =1 i =1 i =1TT(2.21)= α1这里用到了(2.20)式和误差项均值为零的假设。 同理,利用 α 0 的线性表达式,结合上述方法也可以证明出 α 0 的线性无偏性,有兴趣的?0 , α ?1 的线性无偏性。 读者可以自己去证明。这样我们就证明了 α ?0 , α ?1 是参数 α 0 , α1 的一致性估计。一致性即当样本 (2)一致性(consistency) :α容量趋于无穷大时,估计量依概率收敛于总体参数的真实值。在证明过程中,我们将会用到 E(xi , ?j ) = 0 和 Var(?i ) =T →∞σ 2 <∞这两条假设条件。一致性即 ? 0 ? α 0 |& ε ) = 1 (2.22) lim P (| αT →∞?1 ? α1 |& ε ) = 1 lim P (| αT(2.23)?1 的一致性,由(2.18) , (2.20)及(2.21)式 下面我们先来证明 α?1 ? α1 = ∑ ωiYi ? α1 αi =1 T= ∑ ωi (α 0 + α1 X i + μi ) ? α1i =1 T(2.24)= ∑ ωi μii =1由误差项 μi 的独立同方差,互不相关性假设以及式(2.20)∑ωi =1T2 i=1∑(Xi =1T(2.25)2 i ? X)33 因此?1 ? α1 ) 2 = E (∑ ωi μi ) 2 = (∑ ωi2 )σ 2 E (αi =1 i =1TT=σ2(2.26)∑(Xi =1Ti? X )2当 T → ∞ 时,有T →∞∑(Xi =1Ti? X ) 2 → ∞ ,由此(2.27)?1 ? α1 ) 2 = 0 lim E (α1 ?1 ? α1 ) 2 E (α根据切比雪夫不等式,对任意 ε & 0 都有?1 ? α1 |& ε ) ≥ 1 ? P (| α由(2.27)可得ε2T →∞T →∞ T →∞?1 ? α1 |& ε ) = 1 lim P(| α2(2.28)?0 ? α 0 ) = 0 同理,我们可以证明 lim E (α? 0 ? α 0 |& ε ) = 1 lim P(| α(2.29)?0 ,α ?1 的一致性, (2.28) , (2.29)意味着当样本容量足够大时,最 这样我们就证明了 α小二乘估计值非常“接近”真实的参数值。但是要注意,这里的证明用到了本章第一节的假 定。只要这些假定中的某一个不成立,则上述性质不再存在。最小二乘估计可能得出不合 理的结果。 ? 0 ,α ?1 是参数 α 0 ,α1 所有可能的线性无偏估计量中具有最小方差的估 (3)有效性:α 计量。即若设α 0' = ∑ aiYii =1 TT(2.30) (2.31)α1' = ∑ bY i ii =1是 α 0 , α1 的线性无偏估计,则' ? 0 ? α 0 ) 2 ≤ E (α 0 E (α ? α 0 )2(2.32) (2.33)?1 ? α1 ) ≤ E (α ? α1 ) E (α2 ' 12?1 比如对于对 αα1' = ∑ biYi = ∑ bi (α 0 + α1 X i + μi )i =1 T i =1 TTT= α 0 ∑ bi + α1 ∑ bi X i + ∑ bi μii =1 i =1 i =1T(2.34)由于 α1 是无偏估计,因此,根据误差项零均值的假定,有'E (α1' ) = α 0 ∑ bi + α1 ∑ bi X i = α1i =1 i =1TT(2.35)该式要对一切参数成立,因此必须有∑ b = 0, ∑ b Xi =1 i i =1 iTTi=1(2.36)34 从而(2.34)变成α1' = α1 + ∑ bi μii =1T(2.37)这样E (α1' ? α1 ) = ∑ bi2σ 2 = ∑ (bi ? ωi + ωi ) 2 σ 2i =1 T i =1TT= ∑ ω σ + 2∑ (bi ? ωi )ωiσ + ∑ (bi ? ωi ) σi =1 2 i 2 2 2 i =1 T i =1TT(2.38)2由(2.36)∑ (bi =1Ti? ωi )ωi = ∑ bi ωi ? ∑ ωi2i =1 T i =1T=∑i =1bi ( X i ? X )∑(Xk =1 TT?1k? X )2∑(Xk =1T=0 ? X )2(2.39)k因此由(2.38)式可得?1 ? α1 ) 2 E (α1' ? α1 ) 2 ≥ ∑ ωi2σ 2 = E (αi =1(2.40)? 0 的有效性,这样我们就说明了在一定的假设条件之下,最小二乘估 同理,我们可以证明 α计是线性无偏估计中“最好”的估计,这里“最好”的含义是估计量的方差最小。四、参数估计的精确性和性质由式(2.16)和(2.17)可知,OLS 的估计值会因为样本数据的不同而不同,那么我们 就希望知道通过 OLS 估计出的参数值的精确度和可靠性,也就是说我们有必要知道是否存 在估计值的置信度, 以及这种置信度是否会随着选取样本的不同而显著地改变。 样本的可变 性以及由此带来的估计值的精确性仅能从可得到的样本数据来计算。 通常, 对参数精确性和 可靠性的估计可以用它的标准误差(Standard Error)来表示。在古典线性回归模型的一系列 基本假设(1)到(3)都成立的情况下,标准误差的有效估计量的表达式如下:?) = s SE (α?) = s SE ( β∑x T ∑ (x ? x )2 t t2=s∑x T ((∑ x ) ? Tx2 t 2 t2)(2.41)1 =s ∑ ( xt ? x )21 ∑ x ? Tx 22 t(2.42)式中,s 是残差的估计标准差,也就是扰动项方差的估计值,其中s=? ∑u2 tT ?2其中,? ∑u2 t是残差平方和。因此,由式(2.41)和(2.42)可知标准误差是解释变量实际观察值、样本规模 T 和残 差的估计标准差的函数。 值得注意的是系数参数的标准误差只给出了估计值的非确定性程度的测定,它并不能 显示特定的系数参数有多么精确,如果标准误差小,表明系数可能是精确的,但并不能表示 对于这一特定样本它精确到什么程度。35 从式(2.41)和(2.42)可以看出,参数估计值的标准差距有如下性质: (1)样本 T 越大,系数标准误差越少。对于这一点的解释很显而易见:假设这一序列中 的每一观测值都表示一份有助于系数估计的有用信息, 那么样本越大, 用于参数估计的信息 越多,估计值的可信度也就越高。 (2)系数的标准误差都依赖于 s,从前面的内容可知, s 是残差方差估计值,该值越大, 残差就越离散,模型的不确定性越大,即数据点偏离回归线的幅度越大。 (3)两个公式中都出现了 xt 偏离它们的均值的平方和 平方和越大,系数方差越少。图 2-3 分别表示在t2∑ (x ? x )t2,且都在分母中,所以∑ (x ? x )2较小和较大的时候,各自发生的情况。在图 2-3(a)中,数据点紧靠在一起,使得回归显的位置难以确定,而在图 2-3(b) 中数据点相当分散,回归直线的准确位置更可信。yyyyOx(a)xOx(b)x图 2-3:直线拟合和散点集中度的关系( 4)∑x2 t项仅仅影响截距的标准误差(在分子中) ,但不影响斜率标准误差,这是因为∑x2 t测定的是数据点相对于 y 轴的偏离程度,∑x2 t越大,数据点离 y 轴越远,回归估计线与 y 轴的交点(截距)越难确定,从而系数标准误差可能越大。 [案例分析 2-1]一元回归方法的运用――证券市场过度反应吗? DeBondt 和 Thaler()的两项研究结果显示,对于先前业绩相当好的股票,当它 们经历了 3~5 年的较差业绩以后,会趋向于出现超常业绩。①这意味着平均来讲,之前在收 益上为“输者”的股票以后会成为“赢者” ,反之亦然。 Clare 和 Thomas 在英国股票市场随机抽取了 1000 个样本公司,通过一定的方法将公 司的业绩进行排序和划分组合资产形成阶段,并计算出赢者(组合资产形成阶段 20%的业 绩最佳的公司)和输者(20%业绩最差的公司)在 18、9、或 6 个阶段每月的平均收益的差 De Bondt, W., and R. Thaler (1985),, “Does the Stock Market Overact? Journal of Finance40:793-805. De Bondt, W., and R. Thaler (1987), “Further evidence on investor overreaction and stock market seasonality”, Journal of Finance 42:557.581.①36 额,定义为 R Dt 。 第一个回归是输者相对于赢者的超额收益对常数进行回归:R Dt = α1 +η t上式没有考虑到输者的股票有更大的风险,所以要求更高的收益,所以在加入市场 风险因素之后,回归方程如下:R Dt = α 2 + β (R mt - R ft ) + η t式中, Rmt 和 R ft 分别表示英国《金融时报》综合股票收益率和英国政府 3 个月短期国 债的收益。 上述方程的回归结果如表 2-1 所示。通过对表 2-1 前两行输者收益和赢者收益的比较可 知,12 个月对于输者变成赢者并不是充分长的时间,在 2 年或 3 年后,输者成为了赢者。? 同时在样本中剔除 1 月份的收益使得随后输者资产过度业绩的程度显著降低了,表现为 α项的显著性有所降低。因此,仅有部分过度反应的现象发生在 1 月份。表 2-1:A 组:所有月份 输者的收益 赢者的收益 隐含的年收益差英国股票市场上有过度反映效应吗?n=12 0.6 -0.37% -0.0) -0.00034 (-0.30) -0.022 (-0.25) -0.0007 (-0.72) n=24 0.3 1.68% 0.0014** (2.01) 0.00147** (2.01) 0.01 -0.21 0.0012* (1.63) n=36 0.5 1.56% 0.) 0.0013* (1.41) -0.0025 (-0.06) 0.)?1 回归方程系数 α ?2 回归方程系数 α? 回归方程系数 βB 组:除去一月份的所有月份 ?1 回归方程系数 α资料来源:Clare 和 Thomas(1995) 。注释:括号内是 t 值,“*”和“**”分别表示在 10%和 5%的水平下显著第二节 多元线性回归及其应用 一、多元线性回归模型在上一节中我们讨论了一元线性回归模型,然而现实经济中的各变量之间的相互关系是 错综复杂的, 往往一个经济指标都会受到很多其他经济因素的影响, 如果想要通过数量模型 来描述这一影响关系的话, 这就要求我们在一元线性回归模型的基础上引入多元线性回归模 型。例如,对套利定价理论,我们不能事先假定一个因素影响股票的收益率,股票收益可能 依赖下列因素的敏感度: (1) 通货膨胀; (2) 工业生产; (3) 能源价格; (4) 违约风险。 在上述情况下,可以将简单模型扩展为具有 k 个回归变量(独立变量)的一般式。37 yt = β1 + β 2 x2t + β 3 x3t + ... + β k xkt + ut t = 1, 2, , T (2.43) 其中,x2t , x3t , , xkt 是一组影响 y 的解释变量, 共 ( k ?1) 个; 系数估计值 β1 , β 2 ,是一组参数,用于测定每一个解释变量对 y 所产生的影响程度。 模型(2.43)也可以具体表示成如下形式:, βky1 = β1` + β 2 x21 + β3 x31 + ... + β k xk1 + u1 y2 = β1 + β 2 x22 + β3 x32 + ... + β k xk 2 + u2 yT = β1 + β 2 x2T + β3 x3T + ... + β k xkT + uT模型(2.44)的矩阵形式为 (2.44)Y = Xβ +u中的元素 xij 就表示第 i 个变量上第 j 个时间观测值。(2.45)其中, Y 是 T ×1 矩阵, X 是 T × k 矩阵, β 是 k × 1 矩阵, u 是 T ×1 矩阵。这样矩阵 X?1? ?1? ?? 注意 X 1 = ?1? ?? ?? ? ?1? ?同时,以上述方式表示的矩阵可以相乘,即等式右边可以进行有效的矩阵乘法和加法运 算。 在此,残差向量为: u = [u1u2 ... uT ]Τ二、模型假定与一元回归模型一样,为了保证所分析的变量关系符合多元线性回归分析的基本规定以 及回归分析的有效性和性质,同时也为了检验参数性质的需要,通常我们需要对于模型 (2.45)提出若干假定: (1 ) (2 ) (3 ) (4 ) 每组观察值所对应的误差项均为零均值的随机变量,即 E (u ) = 0 。 误差项的方差为常数,即 E (uu ) = σ I ,其中 I 为 N×N 单位矩阵。' 2随机误差向量服从多元正态分布,即 u ? N (0, σ I ) 。2对应于不同的观察值所对应的误差项不相关,即 Cov(ui , u j ) = E (ui u j ) = 0 对 解释变量 X i = [ xi1于任意的 i ≠ j 都成立。 (5 )xi 2 ... xiT ]Τ (i = 1, 2....k ) 是确定性变量而非随机变量,也就是说 X 是一个确定的矩阵,同时在 k&1 时假设不同解释变量之间不存在线性关系,即r( X ) = k +1 ≤ T 。三、参数估计在一元回归中,我们运用 OLS 的方法,使残差平方和相对于 α , β 被最小化,在这里 为了获得参数的估计值 β1 , β 2 ,β k , RSS 将相对于所有的 β 元素最小化。38 运用矩阵形式,残差平方和为:?1 ? ?u ?u ? ? 2 2 ?1 u ?2 … u ?t ] ? 2 ? = u ?' u ? =[u ?12 +u ?2 ?T ?t2 RSS = u + ... + u = ∑u ? ? ? ? ?T ? ?u ? ?(2.46)利用与上一节一元回归类似的方法,可以得出多变量回归系数的估计式:? ? ?β 1 ? ? ? β ? = ? 2 ? = ( X ′X ) ?1 X ′ y β ? ? ? ? ? ? ? ?β k ?(2.47)同样与一元回归模型类似,在计算系数估计值的标准误差时,多元回归模型估计误差的 方差 σ 用残差平方和除以自由度来估计:2s2 =? 'u ? u T ?k(2.48)其参数的方差-协方差矩阵如下:? ) = ( X ' X ) ?1 s 2 var( β(2.49)矩阵对角线上的元素表示参数估计值的方差,而非对角线上的元素表示参数估计值之间? 的方差对应于主对角线上的第二个元素,依次类推。 的协方差,例如 β 2四、多元回归参数估计量的性质在前面我们证明了一元回归模型参数估计的性质, 对于同样利用最小二乘法回归的多元 模型在满足古典线性回归模型基本假设条件下, 得到的参数也应具有线性, 无偏性和有效性 (最小方差性) ,以下我们利用矩阵形式来证明以上几个性质: (1) 线性,这一点从(2.47)式可以看出。 (2) 无偏性,即参数最少二乘估计量的数学期望值都等于真实值:? ) = E[( X ' X ) ?1 X ' y ] = E[( X ' X ) ?1 X ' ( X β + u )] E (β = β + ( X ' X ) ?1 X ' E (u ) = β(3 ) 明如下: 假设 β 是其某一线性无偏估计向量并且有:β = Ay ,那么我们有一下推论成立0 0有效性, 参数最少二乘估计值的方差是所有线性无偏估计值中方差最小的, 证E ( β 0 ) = E ( Ay ) = E[ A( X β + u )] = AX β + AE (u ) = AX β = β则有: AX = IVar ( β 0 ) = Var[ A( X β + u )] = Var ( Au ) = AA'σ 2又因为任意矩阵与自身转置矩阵的乘积都是半正定矩阵,因此:39 [ A ? ( X ' X ) X ' ][ A ? ( X ' X ) X ' ]' = [ A ? ( X ' X ) X ' ][ A' ? X ( X ' X ) ?1 ] = AA' ? ( X ' X ) ?1 X ' A' ? AX ( X ' X ) ?1 + ( X ' X ) ?1 X ' X ( X ' X ) ?1 = AA' ? ( X ' X ) ?1 ≥ 0所以我们有:Var ( β 0 ) ? Var ( β ) = [ AA' ? ( X ' X ) ?1 ]σ 2 ≥ 0从而估计参数值的有效性成立。 [案例分析 2-2]多元回归方法的运用――Beta 值影响因素检验 按照 Sharpe(1964)的 CAPM 定价模型,Beta 值是影响股权融资成本的唯一因素。从 大量实证研究结果包括 Fama 和 French(1992)来看,Beta 值与股票收益之间缺乏显著的相 关性,规模、净值市价比(BP) 、财务杠杆、市盈率等变量可用于解释股票收益。类似于 Gode 和 Mohanram(2003)分析美国股票市场资本成本时选取的影响因素和叶康涛、陆正 飞(2004)选取的影响因素,我们选取以下影响因素: (1)系统风险 Beta 值,根据 CAPM 模型,Beta 值越大,股票价格的波动幅度越大, 相应的股权融资成本越高; (2)帐面市值比例(BM)值,Fama 和 French(1992)认为 BM 值是股权融资成本的 重要影响因素,若公司的帐面市值比较高,表明这些公司面临的系统风险越高,或者这些公 司的股价被市场低估。因此 BM 值与公司股权融资成本之间应该呈现正相关性。 (3)资产负债率(DM) ,根据 Modigliant 和 Miller(1958)的 MM 理论,企业负债率 越高,破产风险越大,股权融资成本应该随着资产负债率增加而增加。资产负债率反映了公 司的资产结构和财务风险。 (4)股东权益市值 (M),即公司规模指标,Fama 和 French(1992)认为市值是股权 融资成本的另外一个影响因素。 规模较大的公司信息披露程度较高, 同时融资存在规模经济, 因此公司规模与股权融资成本应存在负相关性。 (5)非流通股所占比例(NT) ,中国股票市场特有的现象。我们认为非流通股所占总 股数的比例反映了公司的股权结构, 因而也会影响到公司的融资成本, 影响程度以及相关性 还不明确。股权分置改善了公司治理质量,从制度上提升了公司价值,而另一方面股权分置 提高了投资者的回报预期,对融资成本存在比较复杂的影响。 表 2-2: Intercept 0.12455*** (22.10) 0.07484** (2.20) 0.76488*** (6.84) 0.69495*** (6.45) 上市公司股权融资成本横截面回归分析结果 Ln(DM) Ln(M) NTS 0.0) 0.0) 0.0)BMF Value 1.08Pr & F 0.4 &.0001 &.00010..34) 0.00355* (1.68) 0.00396* (1.90)1.64 -0.03048*** (-6.44) -0.02714*** (-5.98) 15.08 -0.00504 (-0.52) 10.31注:表 2、表 3 中列出了逐步添加变量的回归结果,括号内为回归系数的 t 检验值;*表示在 0.1 的水平上显着, **表示 0.05 的水平上显着,***表示在 0.01 的水平上显着。资料来源:陈剑波、张宗新, 《上市公司股权融资成本的再估计》,复旦大学金融研究院工作论文,2006。从表 2-2 的回归结果我们可以看出,我国上市公司融资成本与公司的帐面市值和公司规 模具有显著的相关性,而与公司的资本结构和非流通股比例无关,具体而言,上市公司的股 权融资成本与公司帐面市值正相关,与公司规模负相关。五、逐步回归方法(一)逐步回归方法介绍40 在多元线性回归模型中,可能存在多个影响因变量的因素,往往事先不能确定究竟哪些 因素具有显著的影响, 这时我们可以使用逐步回归方法来解决以下问题, 逐步回归的思想和 步骤如下: 1、 基本思想 逐步引入自变量,每次引入对 Y 影响显著的自变量,并对方程中的原有变量进行逐个 检验,并把变为不显著的变量逐个从方程中剔除。最终得到的方程中既不遗漏对 Y 影响显 著的变量,又不包含对影响不显著的变量。 2、 基本步骤: 首先给出引入变量的显著性水平 ain 和剔除变量的显著性水平 aout ,然后按照图示 2-4 的框图进行筛选变量。 开始对不在方程中的变 量考虑能否引入?否能 引入变量 筛选结束否 对已在方程中的变 量考虑能否剔除? 能 剔除变量 图 2-4:逐步回归的基本步骤 (二)逐步回归的 SAS 实现 假如出引入变量的显著性水平 ain 和剔除变量的显著性水平 aout 都设定为 0.10(一般取ain = aout ,也可以取不等),要求计算预测值 95%的置信界限,则 SAS 实现程序为:Proc reg data=数据集; Model Y=X1-X4/selection=/*Y 为因变量,X1-X4 为自变量*/ Sle=0.1 sls=0.1;/*引入变量和剔除变量的显著性水平都是 10%*/ P R41 以上 SAS 程序自动产生逐步回归输出结果。在逐步回归中,经过筛选变量过程,通过引 入不同变量求解出“最优”回归方程,并输出方程结果。 按照这一思路,逐步回归的 SAS 软件操作过程分为以下五步: 首先,通过“Solutions→Analysis→Analyst”打开数据集; 第二步,选择菜单“Statistics→Regression→linear┅” ; 第 三 步 , 在 弹 出 的 线 性 回 归 主 窗 口 选 择 因 变 量 和 自 变 量 , 选 择 “ variables (Dependent/Explanatory)” ; 第四步,再进行逐步回归选择“Model→Stepwise selection” 。 第五步,是查看回归结果,并对检验结果进行分析。图 2-5:逐步回归的选择窗口 [实证案例 2-3] 逐步回归方法的应用――IPO 折价实证检验 20 世纪 60 年代以来,世界各国学者一直关注 IPO 及其在二级市场的表现。大量研究表 明,IPO(Initial Public Offerings)存在短期发行抑价问题,即首次公开发行的股票由于发行 价偏低,上市后的市场价格远高于发行价,导致 IPO 存在较高的初始收益率,我国 IPO 的 溢价问题相对于国外更加严重,如图 2-5 所示,近年来平均溢价率将近 100%,那么如何解 释如此之高的溢价呢?耿建新、朱保成(2006)利用
年度在上海股市发行并上 市 A 股的上市公司作为研究样本,剔除解决历史遗留问题而未发行新股的上市公司,共有 195 家上市公司入选。 在此, 对新股初始收益率与相关解释变量之间的关系进行了回归分析。 ② 通过采用 stepwise (逐步筛选法) , 最终, 上海 A 股进入最优回归方程的解释变量有中签率、 发行价、上市首日开盘价、上市首日换手率。 则上海 A 股最优回归方程为: RIPO-A=0.397+1.066E-02REXC+9.810E-02PK-0.173PF-0.252CRBS 式中,RIPO-A 表示新股初始收益率, REXC 表示首日换手率,PF 表示首日开盘价,CRBS 表示中签率。表 2-3:上海 A 股新股初始收益率的多元回归分析 变量 常数项②回归系数 0.397**标准化系数T值 2.297显著性水平 0.023耿建新、朱保成, 《A 股、H 股新股初始收益率比较研究》 , 《证券市场导报》 ,2006 年第 4 期。42 首日换手率 REXC 首日开盘价 PK 发行价 PF 中签率 CRBS R=0.776 F=71.9701.066E-02*** 9.810E-02*** -0.173*** -0.252* R2=0.602 P=0.0000.225 0.869 -0.898 -0.093 AdjR2=0.594 D.W.=1.9704.442 13.142 -12.932 -1.9100.000 0.000 0.000 0.058(***表示在 1%水平下显著,**表示在 5%水平下显著,*表示在 10%水平下显著。)(1)回归方程的显著性检验 根据表 2-3,对应于上海 A 股计算出的 F 值分别为 71.970,且 P 值均为 0.000。 因此, 每个回归方程都是显著的, 即新股初始收益率与方程中的至少一个解释变量存在显著 的线性关系;同时,D.W.为 1.970,与 2 较接近,两个计量模型均不存在扰动项的一阶自相 关。 (2)回归系数的显著性检验分析 上市首日换手率与新股初始收益率显著正相关,换手率过高表明市场热衷于短期操作 或存在过度投机行为。 上市首日开盘价与新股初始收益率显著正相关,表明市场对该新股反应激烈,受追捧 程度较高,则抑价程度也高。 发行价与新股初始收益率显著负相关,表明发行价越低,新股的不确定性越小,新股 的抑价幅度也越高。 中签率与新股初始收益率显著负相关,中签率越高,说明市场需求越低;相反,中签率 越低,则说明市场需求越高,进而影响新股抑价程度。900 800 700 600 抑价率(%) 500 400 300 282.5 200 100 0年 年 年 年 年 年 年 年 年 年 年 年 年 年 年 年 19 90 19 91 19 92 19 93 19 94 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06 年802.1449.3 414.3161.4 163.0 144.4 121.9 143.2150.9131.4 87.4 72.0 70.1 45.1 93.7112.8年份图 2-6 年我国 IPO 率抑价水平分布第三节线性回归模型的检验以上分析了线性回归模型的参数估计,下面我们将研究如何对拟合的直线进行检验, 以说明检验结果在多大程度上可以信任。一、假设检验1、零假设与备选假设43 在假设检验的框架内,总伴随着两个重要的假设――零假设(Null Hypothesis,用 H 0 表 。零假设是实际上被检验的统计假设, 示)和备选假设(Alternative Hypothesis,用 H1 表示) 备选假设表示其余可能的结果。 例如:H 0 : a = 0.5 H1 : a ≠ 0.5由于 a & 0.5 和 a & 0.5 都归类于备选假设,所以这一检验被称为 双侧检验( Two-side Test) 。 有时,我们可以事前得到一些信息,例如这些信息显示 a & 0.5 是所预期的,而 a & 0.5 则不是。在这种情况下,我们就不再考虑 a & 0.5 的情况,因此要使用单侧检验(One-side Test) 。H 0 : a = 0.5 H1 : a & 0.5这里,相对于 a 大于 0.5 的备选假设,我们要检验 a = 0.5 的这一真实值的假设。注意, 零假设总是以等式的形式表示。 在统计理论中,有两种实施假设检验的方法:显著性检验方法( Test of Significance Approach)和置信区间方法(Confidence Interval Approach) 。这两种方法的核心都是对系数 估计值进行统计比较并把它的值置于零假设下。概括而言,如果估计值远离零假设,零假设 很可能被拒绝;如果在零假设下的值与估计值相互接近,零假设就不大可能被拒绝。例如 显著性检验法中最常用的是 t 检验和 F 检验,前者是对单个变量系数的检验,后者是对多个 变量系数的联合显著性检验 ( t 检验实际上是 F 检验的一个特例, 即对单变量进行 F 检验) 。? 的一定限定范围,推 同样以上例进行说明,置信区间法的基本思想是建立围绕估计值 a 断总体参数 a 是否在一定置信度下落在此区间范围内。这里所说的置信度(或置信水平)与 t 检验的显著性水平是相对的。例如,我们选择显著性水平为 5%,则置信度为 95%,这说 明在总体抽样的情况下,真实总体的参数 α 有 95%的可能性落在样本的置信区间内,5%的 可能性落在置信区间之外。通常,置信区间又称为接受区域(acceptance region) ;接受区 域以外的称为临界区域(critical region)或者拒绝域(region of rejection) 。置 信 区 间临 界 值临 界 值图 2-7:置信区间与临界值 2、假设检验中的错误分类和 p 值x这里, 如果在所选择的显著性水平下检验统计量具有统计显著性, 则 H 0 通常被拒绝。 我们可能会犯两类错误:44 (1)拒绝一个其实为真的 H 0 ――这称为第一类错误(Type I Errors) 。第一类错误的概 率正好等于 α ,即所选择的显著性水平,例如当选择 5%的显著性水平时,此时这种假设结 果仅有 5%的可能性会偶然出现,也就是说当零假设事实上真实的时候,仅有 5%的可能性 会被拒绝。 (2) H 0 实际是错误的,但我们没有拒绝它――这称为第二类错误(Type II Errors) 。 一般来说我们总是控制第一类假设错误的概率,使之不超过 α ,但是在选择显著性水平时 总会面临第一类错误与第二类错误之间的权衡。如图 2-8 所示。所以减少这两类错误的惟一 方法是增加样本量,即增加假设检验结果所需的信息量。 为说明第一类错误和第二类错误的关系,在此我们假设将显著性水平由 5%变为 1%, 则 α 的置信水平由 95%上升到 99%,这说明错误地拒绝零假设(或犯第一类错误)的概率 由 5%降至 1%,但同时犯第二类错误的概率却上升了。错误地拒绝零假设 更严格地 减少 拒绝零假设的 → → 拒绝零假设 显著性水平 可能性变小 的可能性变小→ 更少地犯第一类错误错误地接受零假设 → 更有可能犯第二类错误 的可能性变大图 2-8:第一类错误和第二类错误 这是我们在度量显著性水平时常用 与两类错误密切相关的是 p 值, p 值又称为概率值, 的一个统计指标,它是一个计量结果对应的精确性显著性水平。例如,一个 0.06 的 p 值说 明检验系数在 0.06 水平上统计显著。在正态分布的双侧检验中,这意味着 6%的 t 分布在均 值 ±1.96 倍标准差的区间之外。作为衡量显著性水平的一个重要指标, p 值度量的是犯第 一类错误的概率,即拒绝正确的零假设的概率。 p 值越大,错误地拒绝零假设的可能性也 就越大;相反, p 值越小,错误地拒绝零假设的可能性也就越小,我们就对统计结果的可 靠性就越放心。 二、变量的显著性检验 变量的显著性检验所用的方法是数理统计学中的假设检验。 为了对参数作区间估计和假 设检验,我们需要知道参数估计量的分布。下面我们先来确定参数的置信区间,由本章第一 ?1 为 Yi , i = 1, 2,..., T 的线性组合。 节最小二乘法估计的结果有下式成立, α批注 [haihui1]: 如何得到的??1 = ∑ [ αi =1TXi ? X∑ ( X i ? X )2i =1T]Yi = ∑ ωiYii =1T(2.50)?1 服从正态分布。由估计量的 由于正态分布随机变量的线性组合仍然服从正态分布,因此 α ?1 的均值为 α1 ,方差为 无偏性, α ?1 ) = var(α因此σ2∑(Xi =1Ti? X )245 ?1 ? N (α1 , α同时由最小二乘估计的结果σ2∑ ( X i ? X )2i =1T)(2.51)?0 = Y ? α ?1 X = αT 1 T Yi ? X ∑ ωiYi ∑ T i =1 i =1T 1 = ∑ ( ? X ωi )Yi i =1 T(2.52)= ∑ viYii =1T? 0 也是 Yi , i = 1, 2,..., T 的线性组合,因此也服从正态分布,其均值为 α 0 ,方差为 α1 ?0 ) = ( + var(α T因此X2∑ (Xi ? X )i =1T)σ 22(2.53)? 0 ? N (α 0 , ( + α1 TX2∑(Xi =1T)σ 2 )2 2(2.54)i? X)?0 , α ?1 的分布中含有未知参数 σ ,因此用方差的估计量 由于 αSE 2 =代替 σ 。可以证明2SSE T ?2(2.55)tα 0 =?0 ? α 0 α 1 + T∑X2 ? SE ( X i ? X )2(2.56)tα 1 =α? 1 ? α 1∑1 ( X i ? X )2(2.57)? SE都是自由度为 T ? 2 的 t 分布统计量,根据 t 分布的性质,当自由度超过 30 时,它近似于标 准正态分布。 对于给定的置信水平 1 ? α ,有 P (| tα1 |≤ t( n ? 2),α / 2 ) = 1 ? α ,其中 t( n ? 2),α / 2 为 t 分布的分 位数。 | tα1 |≤ t( n ? 2),α / 2 等价于?1 ? α1 ?1 + ? SE ? t( n ? 2),α / 2 ≤ α1 ≤ α ( X ∑ i ? X )21 ? SE ? t( n ? 2),α / 2 (2.58) ( X ∑ i ? X )2?1 的 1 ? α 置信区间。常用的置信水平为 95%或者 1 ? α =0.95。在 95%的置信水平 这就是 α下,若置信区间(2.58)不包含零,则它必定完全位于实数轴的正半轴或完全位于负半轴。 ?1 是正值或者负值(不等于 0) 此时我们有 95%的把握判定 α 。?1 的显著性检验问题。对于线性模型 Y = α 0 + α1 X + u 来说,若 X 是 接下来,我讨论 α决定 Y 的主要解释变量,那么 α1 就不应当为零。因此我们考虑原假设H 0 : α1 = 0(2.59)46 备择假设H1 : α1 ≠ 0(2.60)对于原假设,实质上我们是要检验假设: X 对 Y 没有显著影响。如果这个假设被拒绝,就 。延续前面区间估计的思想, 意味着 X 对 Y 有显著影响。这就是通常所说的“显著性检验” 我们可以利用前面构造的 t 分布统计量(2.57)对假设作检验,所不同的是要将(2.57)中 的 α1 改成 0。得到的统计量:tα1 =?1 α 1 ? SE ∑ ( X i ? X )2 P(| t |≥ tα / 2 ) ≤ α(2.61)是自由度为 T ? 2 的 t 分布统计量。对于给定的显著性水平 α ,可以求出 tα / 2 使得 (2.62) 例如,对于 α =5%和 α =1%,当自由度为 10,20,30 时的 tα / 2 如下表: 表 2-4: 自由度 а 0.050 0.010 10.000 2.228 3.169t 分布表20.000 2.086 2.84530.000 2.042 2.75040.000 2.021 2.704生的概率不超过 α 。 根据上面列出的表,在一般情况下,我们大致可以说,当系数的 t 统计值超过 2 时,可因此,在置信度为 1 ? α 时,若 | tα1 |≥ tα / 2 ,我们就拒绝原假设,此时由于结论不正确发以在显著性水平 0.05 之下拒绝原假设 H 0 : α1 = 0 ,即认为系数不为零。当系数的 t 统计值 ,其错 超过 3 时,可以在显著性水平 0.01 之下拒绝原假设 H 0 ,认为“ X 是影响 Y 的因素” 误的概率不超过 1%。 下面我们来介绍各种显著性检验方法: 1、 t 检验 通常 t 检验的步骤如下:?0 、 α ?1 和 SE (α ? 0 ) 、 SE (α ?1 ) 的值。 1) 使用回归方法估计出参数 α ? 0 为例) : 2) 按照下面的公式计算统计量(以 α检验统计量 =** ?0 ? α 0 α ? 0) SE (α式中,α 0 是在零假设下的 α 0 的值。零假设是 H 0 : α 0 = α 0 ;备择假设是 H1 : α 0 ≠ α 0**(双侧检验) 3) 以上述方式推导出的检验统计量服从(T -2)自由度的 t 分布,接下来使用 t 分布 表对上面估计出的检验统计量进行比较。 4) 选择“显著性水平” ,通常用 α 表示选择 5%的显著性水平,注意它不是回顾截距 系数。 5) 给定显著性水平, 从而确定拒绝区域 (Rejection Region) 和非拒绝区域(Non-rejection Region)。例如选择 5%的显著性水平,这意味着总水平的 5%将处于拒绝区域。当作双侧检47 验时,拒绝区域呈两侧分布,各 5%。作单侧检验时,全部落在 y 轴的一边。 6) 运用 t 分布表获得临界值,并把临界值与检验统计量进行比较。临界值是指使拒绝 区域正好达到所选择的显著性水平的值。 ,否 7) 最后进行检验,如果统计值位于拒绝区域内,则拒绝零假设( H 0 : α 0 = α 0 )*则就不能拒绝。f(x) f(x)95%非拒绝域 2.5%拒绝域 2.5%拒绝域95%非拒绝域 5%拒绝域双侧检验单侧检验图 2-9:双侧检验与单侧检验 2、方程显著性检验和 F 统计量 F 检验是一个联合检验,在 F 检验中存在无约束和有约束这两类回顾归,无约束回归 是指系数由样本数据自由决定的回归,而有约束的回归对某些系数施加一定约束条件的回 归,例如设定 β1与β 2之和 等于 1。因此 F 检验方法又被称为有约束的最小二乘法。 F 检验的步骤大体如下: 1) 2) 分别写出无约束和有约束的回归方程,并利用软件进行回归分别得出无约束和有约束 回归中的残差平方和,记为 RRSS 和URSS 。 计算检验统计量:F 检验统计量=RRSS ? URSS T ? k × URSS m其中 m 为约束个数,T 为样本观察值个数,k 为无约束回归中回归自变量个数。 3) 4) 5) 选择“显著性水平” ,通常用 α 表示选择 5%或 1%的显著性水平。 运用 F 分布表获得临界值 Fα (m, T ? k ) ,并把临界值与检验统计量进行比较。 最后进行检验,如果统计量超过临界值,则拒绝零假设,即约束不成立,否则就不能 拒绝。 三、自相关检验:德宾-沃森检验(Durbin-Watson Test) 检验自相关问题实际上就是研究残差的当期值 ut 与以前各期值 ut ?1 , ut ? 2 ...... 之间是否 存在某种关系。最简单的自相关检验就是图示法检验,我们在此不再介绍,下面我们来讲解 德宾-沃森检验(Durbin-Watson Test) ,即 D.W.统计量。 德宾和沃森(Durbin & Watson) 在 1951 年提出了一种检验随机误差项是否存在一阶自 相关的方法,它只检验残差的当期值 ut 与其前一期值的关系,回归方程为:ηt 服从标准正态分布 (2.63) D.W 统计量的零假设条件为: H 0 : ρ = 0 ;备择假设是 H1 : ρ ≠ 0其实在实际操作中我们并不需要(2.63)进行回归,而是从原回归结果中的到残差值运用 以下计算方法直接计算 D.W.统计量ut = ρ ut ?1 + ηt48 D.W.统计量计算方法如下:D.W . =? ∑ (ut =2Tt?t ?1 ) 2 ?u(2.64)?t 2 ∑ut =2T将式(2.64)可展开,简化为: ?) D .W . ≈ 2 (1 ? ρ (2.65)?= 其中, ρ?u ? ∑ut =2 TTt t ?1 2? ∑ut =2t是残差序列的一阶自相关系数的估计量。 ? ) 。由于 ρ ? 是相关系数,它的取值范围为 于 是 , DW 统 计 量 近 似 等 于 2 (1 ? ρ? ≤ 1 ,即 ρ ? 介于-1 和+1 之间。把 ρ ? 的上下限代入式(2.65) ?1 ≤ ρ ,可计算出 DW 的取 值范围为 0 ≤ D W ≤ 4 。现在,我们考虑 DW 取三个重要值(0、2 和 4)时的各自含义: ? =0, D W = 2 (1 ) ρ ? =1, D W = 0 (2 ) ρ ? =-1, D W = 4 (3 ) ρ由于 DW 并不遵循如 t、F 和 χ 那样的标准正态分布。DW 有两个临界值:上限临界值2dU 和下限临界值 d L ,以及一个既不拒绝也不接受的无自相关零假设的中间区域。拒绝、不拒绝和无法做出结论的区域,具体表示为下列数值线上。 在该图中,如果 DW 小于下限临界值 d L ,那么拒绝零假设,并且存在正自相关;如果 , 那么拒绝零假设, 并且存在负自相关; 如果 DW 介于上限临界值 dU 和 (4- dU ) 大于 (4- d L ) 之间,则不拒绝零假设,并且没有显著的残差自相关。P (d T , k )1.00 拒绝 H0dL 存在正自相关 无法判断区域dU2 接受 H04-dU 无法判断区域4-dL 拒绝 H04 d存在负自相关图 2- 10:Durbin-Watson d 统计量49 上图中纵轴 P ( d T , k ) 为对应样本容量 T 和解释变量个数 k 的密度函数。根据样本 容量 T 和解释变量个数 k 查 D.W.分布表(见附表 2),得到临界值 d L 和 dU ,然后按照上述准 则考察所得到的 D.W.值,判断模型是否具有自相关性。批注 [haihui2]: 可能要改四、拟合优度检验和 R 2 统计量1. R 统计量 拟合优度(goodness of fit statistic)是指一个回归模型拟和数据的程度,为了度量这一拟 合程度,我们必须构造出合适的变量即“拟合优度统计量” 。在 OLS 回归中,我们选择使残 差平方和最小的系数估计值,RSS 的值越小,模型拟合数据的效果越好。但是我们注意到 RSS 可以取任意非负数,它的值的大小与因变量的度量单位有关,从而使得它的取值没有任 何意义,例如 RSS 等于 100,我们能由此判断模型拟合效果差吗? 其实,我们常见的拟合优度统计量 R 就很好得解决了以上问题。下面我们来介绍 R 的 构建过程及含义。 对于某一回归模型:2 2 2yt = β + ut系数 β 的估计值就是 y 的均值,记为 y 。 y 相对均值的波动性,即 方和(the total sum of squares, TSS)∑(yt? y ) 2 为总平? ? y ) 是被模型所解释的部分, 称为回归平方和 (the explained sum of squares, ∑(y ? =∑(y ? y ? 是不被模型所解释的残差平方和(RSS) ? ) 。即: ESS) ;∑u ,即 ∑ u其中,2?t ? y ) + ∑ u ?t2 TSS = ∑ ( yt ? y ) = ∑ ( y2 2t22tttt拟合优度统计量由回归平方和与总平方和的比率决定:R2 =R2 =ESS TSS由于 TSS = ESS + RSS 因此存在R 2 越大,说明回归拟合程度越好; R 2 越小,说明回归拟合程度越差。但 R 2 必须介于 0和 1 之间(如图 2-11) 。ESS TSS ? RSS RSS = = 1? TSS TSS TSS(a) 图 2-11:(b)R2 =1 和 R2 =0 的分布图由上可见,通过观察 R 2 大小,我们可以大体考察出回归线的优劣。但是, R 2 作为拟合优度的一个衡量标准也存在一些问题:50 (1) R 是由 y 的均值的变异定义的。如果模型被重新组合,被解释变量发生了变化,那 么 R 也将随之发生变化,即使第二个模型是第一个模型的简单改变(两个模型具有相同的 残差平方和 RSS) ,因此具有不同被解释变量的模型之间是无法比较 R 大小的。 (2)如果有更多的回归自变量加入到回归方程中, R 的值只会增大不会减小。例如考虑 下列两个模型: 回归方程 1: y = b1 + b2 x2t + b3 x3t + ut 回归方程 2: y = b1 + b2 x2t + b3 x3t + b4 x4t + ut 对于回归方程 2 而言,其 R 至少与2 2 2 22回归方程 1 一样大。 (3)对于时间序列回归, R 的值经常会很高,甚至达到 0.9 甚至更高,因此我们无法判 别模型之间孰优孰劣。22.经调整的 R 2 (Adjusted R 2 ) 2 为解决上述第三个问题, 需要对 R 进行调整,即考虑由于加入解释变量而产生的自由度 2 2 的损失。调整过的 R 用 R 表示,其表达式为:? T ?1 ? R 2 =1? ? (1 ? R 2 )? T k ? ? ?其中, T 为样本容量, k 为自变量个数。 由此, R 可以作为决定是否在一个模型中加入一个已知变量的决策工具。其规则是:当加 入一个已知变量时, 如果 R 上升, 就应包含这个变量; 如果 R 下降, 就不应包含这个变量。 五、AIC 准则和 Schwarz 准则 在时间序列模型中,因变量中往往会包含一些滞后 t 期的变量,例如 xt , xt ?1 , xt ? 2 ...... , 这时,滞后阶数越高,则模型的模拟效果越好,那么我们就必须选择一个统计量来确定一个 最佳滞后长度,通常我们选择 AIC 和 SC 统计量。 AIC 准则和 Schwarz 准则的表达式如下:2 2 2AIC = ?2 L / T + 2(k + 1) / T SC = ?2 L / T + [(k + 1) ln T ] / T其中,L 为对数似然值:T ? 'u ?) / T ] L = ? [1 + ln(2π ) + ln(u 2 式中, T 为样本容量, k 为自变量个数。(2.67)可以看出,以上两个准则都引入了加入解释变量的负面影响,选择最佳滞后阶数时, AIC 和 SC 统计量越小越好,因为,当滞后阶数过多时,虽然 L(为负值)的相反数较小, 但是 k 较大,而当滞后阶数过小时,虽然 k 较小,但是 L(为负值)的相反数较大,所以只 有当滞后阶数使得 AIC 和 SC 统计量最小时才是最佳的滞后阶数。 六、残差检验(residual test) 古典线性回归模型中假定随机扰动项是正态分布的,因而在检验模型拟合程度时,有必要 进行残差正态性检验,最常用的方法是 Bera-Jarque 检验,简称 BJ 检验。 Bera 和 Jarque(1981)通过验证偏斜度系数和超峰度系数是否联合为零来检验残差项是 否为正态分布。用 u 表示误差, σ 表示方差,可以得出偏斜度系数和峰度系数的表达式:251 p=E (u 3 ) E (u 4 ) = , f (σ 2 )3/ 2 (σ 2 ) 2正态分布的峰度为 3,从而它的超峰度为 ( f ? 3) 等于 0。 Bera-Jarque 统计量为:? p 2 ( f ? 3) 2 ? W =T? + ? 24 ? ? 6(2.68)我们可以从 OLS 回归的残差中估计出 p和f 的值, 在零假设为正态分 式中 T 为样本容量, 布时,如果从模型中得到的残差是显著的偏斜分布或尖锋/低峰分布(或两者皆是) ,那么零 假设被拒绝。35 30 25 20 15 10 5 0 -0.250 -0.125 -0.000 0.125 0.250 0.375 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis Jarque-Bera Probability 7.60e-16 -0.......000 Series: Residuals Sample 9M12 Observations 372图 2-12:残差检验 我们可以在 Eviews 软件中通过选择 View→Residual Tests→Histogram→Normality 命 令来进行残差检验。若残差为正态分布则条形图呈钟形且 Bera-Jarque 统计量不显著,p 值 应大于显著性水平 α 。例如图 2-12 中就是非正态分布检验结果。 [实证案例 2-4]应用 t 检验进行验证 CAPM:共同基金能否战胜市场? 共同基金能否战胜市场(beat the market) ,是基金业绩评价的一个基础性问题。 ③ Jensen(1968)最先应用 CAPM 模型检验了共同基金业绩表现。 在此,我们应用 t 检验进行 验证 CAPM,说明共同基金能否战胜市场。Jensen(1968) 对 CAPM 检验是通过一个简单的回归 方程实现的。 其样本是 1945 年到 1964 年 115 只基金组合年度收益率数据, 采用 OLS 时间序 列回归方法。 估计方程如下:R jt ? R ft = a j + β j ( Rmt ? R ft ) + u jt(2.69)式中, R jt 为时间 t 期资产组合 j 的收益率, R ft 表示无风险收益率(即 1 年期政府债券的 收益) , Rmt 为市场组合的收益, u jt 为误差项。α j 和β j 是待估参数,一个正的并显著的 α j 表示该基金能够获得超过给定风险下的市场必要收益率的非正常收益,即战胜市场。表 2-5③Jensen,The performance of mutual funds in the period ,Journal of Finance,23(2):389-416.52 是估计的回归结果。 表 2-5Mean Value -.011 .840 .865 -.077 17方程回归结果Mddian Value -.009 .848 .901 -.064 19 Extreme Value Minimum -0.080 0.219 0.445 -0.688 10 Maximum 0.058 1.405 0.977 0.575 20 Mean Absolute Deviation .016 .162 .074 .211 3.12Item? α ? βρ (ut , ut ?1 ) **n资料来源:Jesen(1968)。? r2如表 2-5 所示,在两种情况下 α 的值都为负数,这表示平均(即平均值或中位值) 基金并不能战胜市场,当然最佳业绩的基金的 α 值为 0.058,取得了非正常收益。平均基金 的 Beta 值为 0.84,说明基金相对市场而言风险整体较小, 原因在于基金主要投资蓝筹股 (Blue Chip) 而非资本金小的股票 (Small Caps) 。 表示上述结果的一个更为直观的方法是对系数 α 作图,以显示每一组 t 比率分类下的共同基金数量。图 2-13 表示考虑总交易成本时的情况。图 2-13:Jensen’s Alpha 的 t 比率分布资料来源:Jesen(1968).对 α j = 0 的双测检验的适当临界值大约是 2.1(假定 20 个年度数据有 18 个自由度) ,从 图 2-13 可知, 115 只基金中只有大约 5 只基金超过市场水平, 而有 5 只基金明显低于市场水 平, 大部分基金约等于市场水平。 因此我们认为美国基金管理者似乎并不能获得非正常的收 益。 为进一步说明共同基金能否战胜市场,我们进一步分析了中国 A 股市场上开放式基金和 英国单位信托基金的业绩进行说明。 通过研究发现, 我国证券市场上所考察的 142 家开放式 基金中,有 120 只基金能够战胜市场,并且平均获得 0.12%的超额复合收益。而从英国单位 信托基金的业绩看,各个基金业绩差一很大,并且平均月度复合收益率为 1%。同时,从大 多数基金的 beta 分布看,无论中国的开放式基金还是英国的信托基金,多数基金的 beta53 值都显著小于 1,这说明基金管理者多数属于风险厌恶型投资者。 表 2-6:来自中国和英国基金收益的证券平均值(%) 中国 142 家开放基金 业绩() 英国 76 家基金业绩 ()2824最小值(%) -0.37 0.6最大值(%) 0.68 1.4中位数(%) 0.13 1.00.12 1.02420201616 12 8 4 0 -0.0 0.012 8 4 0 0.0 0.2 0.4 0.6 0.8 1.0(a)Alpha 值(b)Beta 值图 2-14:中国 142 家开放基金业绩3500300025002000150010005000Ja n95Ja n93Ja n94Ja n96Ja n97Ja n98Ja n99Ja n88Ja n79Ja n80Ja n81Ja n82Ja n83Ja n86Ja n84Ja n85英国单位信托基金业绩[实证案例 2-5]金融中介和股票市场与经济增长关系的 OLS 检验 谈儒勇(1999)利用普通最小二乘法(OLS)对中国金融中介、股票市场与经济增长的关 系进行线性回归,选取了 1994 年第 1 季度到 1998 年第 4 季度共 20 个季度的数据,使用经 季节调整后的季度环比增长率(GY)来代表经济增长,代表金融中介发展水平的解释变量共 有 2 个,分别为金融深度指标(DEPTH),由每季度平均 M2 除以 GDP 得到;存款货币银行在 配置国内信贷过程中相对于中央银行的重要性指标(BANK),BANK 等于存款货币银行资产 负债表上 3 个资产类帐户“对中央政府债权”、“对其他部门债权”和“对非货币金融机构 债权” 的季度余额之和除以存款货币银行资产负债表上 3 个资产类帐户 “对中央政府债权” 、Ja n87Ja n91Ja n89Ja n90Ja n92Ja n0054 “对其他部门债权”和“对非货币金融机构债权”以及货币当局资产负债表上 4 个资产类帐 户“对中央政府债权”、“对存款货币银行债权”、“对非货币金融机构债权”和“对非金 融部门债权” 的季度余额之和; 同时为了控制变量以检测金融中介和经济增长是否独立于其 他变量,还选取了贸易指标(TRADE),由当季进出口贸易总额除以当季 GDP 得到。 从表 2-6 可以看出中国金融中介对经济增长有着显著的正相关性,金融深度指标 (DEPTH)和其滞后变量 DEPTH(-4)都很显著,说明本季度和上年同期 DEPTH 与经济增长之 间有显著的正相关关系。 虽然在单独检验 BANK 或其滞后指标 BANK (-4) 时其 t-检验值较低, 但是一旦 BANK 和 DEPTH 指标同时进入检验时, 即使是在 TRADE(-4)指标得到控制的情况下, 两者的显著性水平都得到了显著提高, 这就说明中国金融中介和经济增长的关系独立其他影 响因素。 表2-6 中国金融中介和经济增长(1994 年第1 季度―1998 年第4季度) 解释变量 (1 ) ( 2) ( 3) ( 4) ( 5)c GY(-4) DEPTH DEPTH(-4) BANK BANK(-4) TRADE(-4) 可决系数 R 调整后的可决 系数 R D.W 检验值2 2( 6) -5.00 (-1.05) 0.80 (7.44) -0.93 (-4.75)( 7)4.13 (3.81) 0.70 (5.49) -0.83 (-3.51)4.94 (5.50) 0.71 (6.28) 0.70 (4.43) 0.70 (0.40)-7.37 (-1.38) 0.79 (6.45) -0.97 (-4.36)0.76 (7.61) -0.90 (-4.63)-1.07 (-5.19) 0.74 (1.20) 0.74 (1.15) -4.71 (-2.43) 0.72 0.68 1.48 0.81 0.79 1.13 0.51 0.48 2.08 0.51 0.48 2.07 0.78 0.74 1.92 0.84 0.80 1.89 -5.13 (-2.70) 0.83 0.80 1.76 15.04 (2.19) 14.16 (2.36) 8.02 (5.75)资料来源: 谈儒勇, 《中国金融发展和经济增长关系的实证研究》 , 《经济研究》 1999 (10) 。 该文用于描述股票市场发展的指标共有 3 个, 第一个指标是每季度的平均市价总值与季 度 GDP 的比率,它用来反映股票市场规模,用 CAPTALIZATION 表示;而股票市场与经济增长 之间的关系却不显著。 第二个指标和第三个指标是股票市场流动性指标, 即每季度的总成交 金额与季度 GDP 的比率,用 VALUE 表示,和季度周转率,季度周转率等于季度的股票总成交 金额除以季度的股票平均市价总值,用 TURNOVER 表示。 从表 2-7 可以看出中国股票市场发展与经济增长之间的关系不显著, 这就说明国外学者 在国票市场发展和经济增长关系的主流看法――股票市场发展促进经济发展――是不适合 我国的,同时上述结果与哈里斯(Harris,1997)的实证结果――欠发达国家的股票市场发 展对经济增长的效应是非常弱的――相吻合。55 表2-7 中国股票市场发展和经济增长(1994 年第1 季度―1998 年第4 季度) 解释变量 (1 ) ( 2) (3) (4 ) ( 5)c GY(-4) CAPITALIZATION CAPITALIZATION(-4) VALUE VALUE(-4) TURNOVER TURNOVER(-4) 可决系数 R2 2(6 ) 0.63 (0.95) 0.70 (4.19)0.93 (1.19) 0.67 (3.94) -0.49 (-0.60)0.86 (1.12) 0.69 (4.11)0.56 (0.79) 0.70 (4.04)0.79 (1.26) 0.69 (4.11)0.31 (0.46) 0.71 (4.29)-0.58 (-0.49) 0.05 (0.03) -0.78 (-0.57) 0.52 (0.63) -0.10 (-0.12) 0.52 0.46 1.98 0.52 0.46 1.94 0.51 0.45 2.06 0.52 0.46 2.08 0.52 0.46 1.96 0.51 0.45 2.08 15.04 (2.19)调整后的可决系数 R D.W 检验值资料来源:同上表。第四节 虚拟变量引入与模型稳定性检验 一、包含虚拟变量的回归模型(一)简单理论回顾 虚拟变量是回归分析中常用的工具之一。在研究某一因变量时,解释变量除了某些定量 变量,还希望引入一些定性变量。这些定量变量称为指标变量、二元变量或分类变量。本节 将在回归模型中引入这些变量,并赋值 0 或 1。而对于只取 0 或 1 的变量我们将它称为称为 虚拟变量 (dummy variable)。 一般而言,虚拟变量可以 D 来表示,以示和其他变量的区别。例如,虚拟变量的引入, 考察董事长和总经理两职合一是否和公司绩效存在关联,可构造如下回归模型:Yi = α + β1 Di + uii = 1, 2,,N(2.70)其中, Yi 公司绩效, N 表示抽样样本个数, Di 为虚拟变量,取值为 0 或 1。则:?1,董事长和总经理两职合一 Di = ? ?0,非董事长和总经理两职合一假定随机扰动项满足古典线性回归模型的基本假设,由公式(2.70)可知:E(公司绩效 非董事长和总经理两职合一) =αE(公司绩效 董事长和总经理两职合一) =α +β156 可见,α 是非董事长和总经理两职合一的平均公司绩效,α + β1 是董事长和总经理两职 合一的平均公司绩效。 β1 是否显著,即董事长和总经理两职合一是否影响公司绩效水平是 引人关注的,可通过 t 检验判断。 同时,引进虚拟变量必须注意“虚拟变量陷阱”(dummy variable trap)问题。在同一个模 型中, 可以引进多个虚拟变量, 但其设置必须遵循如下原则: 如果一个定性变量有 n 个类别, 则仅引进 n-1 个虚拟变量。 否则, 对于 n 个属性类别我们引入 n 个虚拟变量 Di (i = 1, 2, 并定义:, n) ,?1,若具有第i种属性 Di = ? ?0,若不具有第i种属性则必有 D1 + D2 + 免这个陷阱。 (二)包含虚拟变量模型的应用――上证指数的“周末效应”检验 “周末效应”又名周日效应,也就是说股票的收益与风险在周内各交易日表现出不同的 特征,对此国外学者很早就有研究,Cross(1973 年)、French(1980 年)、Gbbons 和 Hess(1981 年)对美国股票市场研究发现,周一股票的平均收益率显著为负,且比同周内的其他交易日 都低;周五的收益率比其他交易日都高,且风险相对较小,即存在“周末效应” 。关于我国 上海和深圳股票市场是否存在“周末效应” ,国内学者也有不少研究,认为我国股票市场与 其他新兴市场一样,存在显著的周末效应,周五的收益率相对同周的其他交易日较高,而周 二的收益率相对较低。 1、数据描述 我们选取 2000 年 1 月 4 日-2006 年 6 月 30 日的上证市场收盘价数据。采取连续收益率 法计算日收益率。用 Eview 软件和 SAS 软件对数据进行初步统计分别得出日收益率波动曲 线图如下:.12+ Dn = 1 ,即解释变量之间存在完全多重共线性,使参数估计值不能唯一确定,此即所谓的“虚拟变量陷阱”。而按照前面上述原则引入虚拟变量,则可以避.08.04.00-.04-.08 250 50 0 750 R 1 0 00
057 (a)上证指数收益率的 Eviews 展示结果r_szindex 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.0701JAN200001JAN200101JAN200201JAN200301JAN200401JAN200501JAN200601JAN2007(b)上证指数收益率的 SAS 展示结果350 300 250 200 150 100 50 0 -0.05 -0.00 0.05 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis Jarque-Bera Probability 0.......4.847 0.000000 Series: R Sample 1 1600 Observations 1557(c)收益率统计 图 2-16:上证指数收益率的统计结果 2、检验模型 为对上证指数收益率进行周末效应检验,在此构建如下的虚拟变量模型:Rt = a0 + a1 D1t + a2 D2t + a3 D4t + a4 D5t + ε t(2. )其中, Rt 表示 t 时刻的收益率,虚拟变量 Dit (i = 1, 2, 4,5) 的取值在每周的第 i 天(每周 5 天)取值为 1,其余时刻取值为 0。从模型可以看到, a0 表示的是周三的平均收益,而 a1 、58 a2 、 a3 、 a4 分别表示的是周一、周二、周四、周五与周三平均收益的差异,若差异显著,则表明上海股票市场存在周末效应。 下表是周一到周五的收益率统计结果, 初步显示一周当中周一、 周二的收益率相对较低, 而周五的收益率相对较高。 表 2-8: obs 732 739 739 738 Mean -0.... 周一至周五的收益率描述性统计 Std Dev 0....0360241 Minimum -0....1124632 Maximum 0....7191518734 0....1936824 为进一步准确说明这一特征,在此,使用 SAS 软件对上述模型进行 OLS 回归,回归结 果如下: 表 2-9:“日历窗效应”效应检验结果 A:周一效应 Parameter Intercept dummy B:周末效应 Parameter Intercept dummy Estimate 0. 0. Standard Error 0.. t Value 0.28 2.39 Estimate 0. -0. Standard Error 0.. t Value 1.88 -1.19Pr & t0.5Pr & t0.0从上述回归结果我们可以看出,周一的收益率为负,而周五的收益率却显著得为正值,说明 我国上证市场存在显著的“周末效应”。二、回归模型的结构稳定性检验在金融模型中,各变量之间的关系因自身性质改变或外部冲击而发生结构性变化。若 在金融计量中忽视这一点, 仍同时利用变化前后的数据进行回归分析, 则模型的精确度就会 大大降低,利用模型所得出的估计、推断和预测也就难免出现偏差。因此,在金融计量过程 中, 对回归模型的稳定性检验是必要的。 下面, 我们将介绍回归模型稳定性检验的主要方法: Chow 检验法和虚拟变量法。 (一)Chow 检验 Chow检验法是著名美籍华人、美国宾夕法尼亚大学教授(G.C.Chow)于1960年提出的一 种模型稳定性统计检验。④这篇发表于《经济计量学》的论文指出,“当某一线性回归方程 被用于表示一种经济关系,经常会产生这样一个问题,即是否该(经济)关系在两个时间段里 保持稳定――就统计上而言,可以通过检验两组观察值是否能被看成属于同一个回归模型来 回答该问题。”“通常,假设两者关系完全相同是毫无经济学道理的。更为合理的是假设部 分关系在两个不同时间段或两组里相一致??统计上说,我们是在问两个回归方程里参数的子 集是否相等。”换句话说“我们的问题在于检验M个新增观察值与前一组样本的N 个观察值 是否属于同一个回归关系,以及检验两个回归方程参数的子集是否一致。 ” 为此,邹至庄提出 一种检验两个线性回归方程中系数之间等量性的检验方法,该方法后来被学术界广泛称为④Economietrics ,28,1960.59 CHOW检验法”。 1、Chow检验法的步骤如下 第一步,把样本数据分成两个子样本,分别对整个样本数据和两个子样本进行回归,并 获取每个回归的 RSS 。 第二步,受约束的是对整个样本的回归,而不受约束的是对两个子样本的回归,因此 可以构建 F 检验统计量:检验统计量=RSS ? ( RSS1 + RSS 2 ) T ? 2k × RSS1 + RSS 2 k它服从 F (k , T ? 2k ) 。其中, RSS 表示对全部数据回归的残差平方和, RSS1 和 RSS 2 表示对两分样本进行回归得到的残差平方和,T 为样本数,k 为所估计参数的个数。需要指 出的是,分子的自由度之所以 T ? 2k ,是因为无约束方程分为两段,总共有 2k 个参数。 第三步,进行检验,如果检验统计量的值大于 F 分布表中的临界值,即 Fα (k , T ? 2k ) ,就 拒绝参数随时间变化保持稳定这一零假设。如果小于临界值,就不能拒绝模型稳定性假设。 2、应用 Eviews 进行 Chow 检验 为说明 Chow 检验的过程,在此我们应用
年中国 GDP 和上证指数年度数据 进行演示说明: 首先,构建回归模型,即构建如下回归模型:Yt=α +β X t + ut其中, Yt 、 X t 分别代表上证指数和 GDP。 在 Eviews 软件中输入数据后,点击“Quick-Estimate Equation”输入方程,得到如 下回归结果:Dependent Variable: INDEX Method: Least Squares Date: 04/08/07 Time: 16:10 Sample:
Included observations: 17 Variable GDP C R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 0..399 0... -125.306 Std. Error 0..7357 t-Statistic 4..857731 Prob. 0.9 .81 15.44 0.000193Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)图 2-17:回归结果 第二步, 是进行 Chow 氏稳定系国内检验。 选择 View-Stability test-Chow Breakpoint Test┅。操作过程如下图所示:60 图 2-18:Chow 检验窗口 第三步骤,是确定结构变化的转折点,进行检验。如结构转折点选择 2005 年,则输出 结果如下图所示。从输出结果看,发现在 0.1 的水平上拒绝模型稳定原假设,说明 2005 以 后的中国股市发生了结构性变化。Chow Breakpoint Test: 2005 F-statistic Log likelihood ratio 3..693997 Probability Probability 0..021344图 2-19:Chow 检验结果(二)回归模型稳定性检验――虚拟变量法 CHOW 检验法只能告诉我们模型结构是否变化, 但不能揭示是斜率变化还是截距发生变 化,而虚拟变量法则可以解决这一问题。下面,我们来说明如何运用虚拟变量法对回归模型 进行稳定性检验。 将某一总体样本分拆为两个子样本,设为样本 1 和样本 2 ,分别对两个子样本按照以 下模型进行回归: 样本 1: yt = α1 + β1 xt + μt 样本 2: yt = α 2 + β 2 xt + μt 同时用总体样本估计以下模型:yt = α1 + (α 2 ? α1 ) Dt + β1 xt + ( β 2 ? β1 ) XDt + μt61 上式中 XDt = xt .Dt 。得到回归结果后,利用 t 检验判断 Dt 和XDt 系数的显著性,可以 得到以下四种结果: (1) Dt 和XDt 系数都显著为零,即 α1 = α 2 , β1 = β 2 ,表明回归模型稳定。 (2) Dt 的系数不等于零, XDt 的系数等于零,即 α1 ≠ α 2 , β1 = β 2 ,表明模型不稳 定的原因在于模型的截距发生了变化。 (3) Dt 的系数等于零, XDt 的系数不等于零,即 α1 = α 2 , β1 ≠ β 2 ,表明模型不稳 定的原因在于模型的斜率存在差异。 (4) Dt 和XDt 系数都显著不为零,即 α1 ≠ α 2 , β1 ≠ β 2 ,表明回归模型非常不稳定, 截距和斜率都容易发生变化。 与 Chow 检验比较,虚拟变量法具有如下优点: (1)与 Chow 检验的三次回归相比,虚拟变量法只进行一次总次回归,相对简洁。 (2)虚拟变量法能够清楚表明截距或斜率变化,从而判断模型是否稳定。 (3)由于虚拟变量法合并了连个回归而减少了虚拟变量的个数,增加了自由度,从而 参数估计的准确性也有所改进。62 思考题 1、在经典线性回归模型中,为何要设定五个假设? 2、最小二乘估计有哪些主要性质?为什么说最小二乘估计量是最优的线性无偏估计量。 3、下面哪一个模型能用普通最小二乘法进行估计,其中 α , β , γ , 是待估计的参数 ( D ) A. yt = α + βγ xt + ut B. yt = α + β xt zt + ut C. ln( yt ) = α + β xt + ut A. H 0 : β 2 + β 3 = 1 C. H 0 : β 2 = 0且β 3 = 1 D.yt = eα xtβ eut( B )4、下列关于系数的假设中能用 t 检验来检验的是 B. H 0 : β 2 = 1 D. H 0 : β 2 = 0或β 3 = 15、检验 CAPM 模型的回归方程可以表示为: R jt ? R ft = ai + β j ( Rmt ? R ft ) + u jt ,如果认 为某支股票收益与市场波动完全不相关, 则我们应设定零假设为: A. H 0 : β j = 0 C. H 0 : α j = 0 B. H 0 : β j = ?1 D. H 0 : α j = ?1 ( A )6、利用 2000 年 1 月-2006 年 12 月上海股票市场上市公司的 IPO 相关数据,建立一个多元 回归方程,求出解释 IPO 折价率的影响因素。 7、试论述 t 检验和 F 检验有何区别和联系? 8、下表列示了
年有关中国财政收入的相关数据,请利用二元回归方程计算:? ,计算 R 与 R 。 (1)估计回归方程的参数及随机扰动项的方差 σ2 2 2(2)对方程进行 F 检验,对参数进行 t 检验,并构造 95%的置信区间。 财政 收入 2.01 7.24 7.10 3.37 其他收 入 280.51 156.95 212.38 176.18 179.53 299.53 240.10 265.15 财政 收入 8.10 7.99 5.95 95.23 其他收 入 191.04 280.18 396.19 724.66 682.30 833.30 925.43 944.98年份 87 90 税收 0.73 0.47 1.86 6.91年份 95 98 税收 6.88 9.82 2.80 81.519、引入虚拟变量在金融计量中有何应用?试利用虚拟变量引入对上海证券市场的“日历效 应”进行检验。63
更多相关文档

我要回帖

更多关于 残差检验 的文章

 

随机推荐