怎么对stata 系数t检验做T检验

声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
读过本系列上一集《》的你,相信已经记住了我们的逆耳忠言。小小声告诉你,这样的流氓,其实我们曾经都耍过呢!今天,我们就接着上一集,来讲讲做完 t 检验之后,怎样正确地报告效应大小,从而做个不耍流氓的好少年。
(什么?我已经太老不能做少年了?那就好儿童吧!)
单样本 t 检验的效应大小
对于效应大小这个概念,我们之前已经接触过许多次。之所以它值得我们的注意,是因为它能向我们提供比 p 值更多的信息。相比起根据 p 值是否小于 0.05 或者别的阈值来做个非此即彼的裁决,效应大小会追问一句,我们所感兴趣的现象本身究竟程度如何?
在 t 检验的情形里,既然这个检验的目标是平均值之间的差异,效应大小关心的就是这个差异究竟有多大。
从上一集的几个例子中我们也已知道,尽管一个很小的 p 值看起来意味着有很强的证据反对原假设,但是它并不等同于很大的效应――很小的 p 值同样可以来源于实际上并不显著的效应,只要样本量够大就行。
因此,当我们汇报统计分析的结果时,在 p 值以外再加上效应大小等相关信息,能给读者正确、全面地解读结果带来很大的帮助。这一点建议对频率主义统计学的几乎所有检验都是适用的。
那么,当我们使用 t 检验时,我们应该如何找出效应大小?
回顾一下,我们在《》里讲过,t 检验有三种(单样本 t 检验、独立样本 t 检验、成对样本 t 检验),目的是共通的――对一个或两个样本的平均值做统计推断。既然如此,效应大小能不能直接用平均值与标准值之差(单样本 t 检验)或是两个平均值之差(另外两种 t 检验)来表示?
想到了这一点,我们就已经在正确的方向上前进了一小步。你应该也记得,在上一集里,我们演示 p 值和效应大小的关系时,正是用样本包子重量的平均值与食堂规定的标准值之间的差别来粗略衡量效应大小的。但是,这种方法有两个缺陷:
第一,它依赖于具体问题中数据本身所带的单位及其取值范围。比如说,我们随机抽检的包子样本平均重量与标准值的差是 3 克。如果我们把单位换成千克,那么这个差值就变成了 0.003 千克――说的还是一个事,数值上给人的感觉却大大不同。我们希望定义一种效应大小的表示方法,能够不受这些表面现象所影响。
第二,如果只关注平均值的偏差本身,我们就忽略了这一偏差本身所带有的不确定性。我们再来看一个例子(图 1)。和上一集一样,让我们来比较两个包子重量的样本(样本 5 和 6 )。记住,食堂的包子重量标准值仍然是 50 克。
图 1 包子样本 5 号和样本 6 号
蓝色横线代表包子重量的规定标准值 50 克。两个样本中的各个数据点用+号表示,样本平均值用菱形表示。样本各自的均值(mean)和标准差(standard deviation, s.d.)标注在相应位置。
如果从平均值来看,这两个样本与标准值 50 克的差别几乎没有区别,大约都是 4 克多一点。而且,两个样本的数据点个数也都是 30。但是我们对这两个结果的信心是否一样呢?恐怕不然。从图 1 可以看到,样本 6 的数据比样本 5 要分散许多。比起数据相对集中的样本 5,样本 6 会让我们心里更没底――与标准值的这点差别谁知道是不是碰巧得到的呢?
正是因为这样的考虑,我们希望在衡量效应大小时,能把结果的不确定性也包含进去――不确定性大时,我们就把效应大小调整得小一些。有什么办法可以表示不确定性的大小?上面的图 1 已经给了我们提示:标准差!
我们以前说过,标准差是表示一个样本中所有数据点离它们的平均值的偏离程度的量。因此,我们可以把平均值与标准值之差除以样本的标准差。这样一来,效应大小就是一个综合了平均值的差异及其不确定性的数量了,称为 Cohen 氏 d 值:
其中 μ 为总体的真实均值,μ0 为标准值,而 σ 为总体的标准差。当然,总体的参数我们无法得知,因此要用样本的均值和标准差代替。
现在我们已经把差值的不确定性放到了 d 值里面,那么之前说过的由数据的单位所引起的问题呢?告诉你一个好消息,它在 d 值里也不存在了。因为标准差的单位和数据平均值的单位相同(想想看为什么?),在计算 d 值时上下一除就消去了。因此 d 是一个不带单位的量。
而更重要的是,Cohen 氏 d 值使我们能够把来自完全不同的数据的若干 t 检验的效应大小放在同一个尺度上比较。
比如说,如果我们想对认知行为疗法对慢性疼痛的疗效的已有研究做个总结,那么在找到所有这些文献以后,我们会发现,虽然这些研究的目的相似,但是具体数据的来源和形式却是千差万别,例如疼痛程度的评分会使用不同的体系和尺度,受试者人数及人群中数据的波动情况也会不一样。这时,直接把治疗前后平均值的差别放在一起比较是没有意义的。而利用 Cohen 氏 d 值来代表效应大小,则能使不同研究的结果变得可以等量齐观。
因此,效应大小也是用定量方法综合大量研究结果(即荟萃分析)的一个重要基础。
怎样的效应算是大呢?Cohen 氏 d 值的发明人 Jacob Cohen 曾经提出过一条经验准则,把 d 值为 0.2,0.5 和 0.8 的效应分别称为小、中、大效应。当然了,这只是相当粗略的划分,也没有考虑到不同学科之间的差异,因此只能作为一种参考。
成对样本和独立样本 t 检验的效应大小
既然 t 检验有三个版本,Cohen 氏 d 值自然也一样。前面我们讲了单样本 t 检验的情况下 Cohen 氏 d 值的定义。对于单样本 t 检验,Cohen 氏 d 值就是平均值(与标准值)的差异与标准差的比例。对于另外两种 t 检验,d 值的定义也是大同小异――分子上自然是两个样本的平均值之差,而分母依然是某种「标准差」。由于成对样本和独立样本 t 检验都涉及两个样本,因此这个标准差是结合了两个样本的「合并标准差」(pooled standard deviation)。具体的理论这里我们不详细叙述,仅仅列出算式。
成对样本 t 检验的效应大小为
其中 μx、μy 为两个成对总体的均值,σx、σy 分别为各自的标准差,而 ρxy 为两个总体之间的相关系数(correlation coefficient)。所谓相关系数,简单来说就是测量两个变量变化方向是否一致。如果 x 增大时 y 也增大,则相关系数为正;如果 x 增大时 y 会减小,则相关系数为负。相关系数的取值范围在 1(两变量完全成比例地同增同减)到 -1 之间(两变量完全成比例地向相反方向变化),相关系数为 0 时两变量完全没有关联,见下图。
图2 相关系数取1到-1之间不同数值时的x~y散点图示例
(图片来源:https://en.wikipedia.org/wiki/Correlation_and_dependence#/media/File:Correlation_examples2.svg)
此外,我们之前也提过,如果把成对样本中对应的数据点两两相减,那么把得出的差值做单样本 t 检验 (以 0 为标准值)实际上等价于成对样本的 t 检验()。因此,我们也可以对成对样本的差值使用前面单样本 t 检验的 Cohen 氏 d 值的公式。
独立样本 t 检验的效应大小(当两个样本的样本量n1、n2比较接近时)为
其中各符号的含义与前面相同。
利用效应大小进行 t 检验的功效分析
效应大小不仅是评估统计检验结果的重要工具,更是功效分析中的关键一环。功效分析是根据预测可能发生的实验结果估算出实验所需要的样本量的过程,因而也是如今各种科研基金申请书的常客。我们很久以前为大家介绍过功效分析的基本原理――效应大小、显著性水平(α,通常为 0.05)、统计功效(1-β,通常为 0.8)和样本量(n)只要知道其中三个,就能求出第四个。(看着这句话有点蒙圈?戳此处回顾《做统计,多少数据才算够?、》)
因此,在功效分析中,当我们选定了计划进行的统计检验时,要知道所需的样本量,我们只需确定效应大小、显著性水平和统计功效。后两者一般都是约定俗成的,难点在于效应大小的确定。我们以前也讨论过,在还没有获得正式数据之时,效应大小一般通过小规模的试点实验(pilot study)或者参考以往的类似研究进行估算。
假设我们正在计划一个课题,其中一部分的数据分析将会用到 t 检验。按照前面介绍的公式估算出了效应大小以后,我们怎样知道需要多大的样本量?这时,我们需要用到之前推介过的一款优秀且免费的功效分析软件 G*Power(该软件的下载安装和简介请参看)。
打开 G*Power,我们将看到如下基本界面(图 3)。首先,既然我们计划使用的是 t 检验,我们需要在「检验类型」(test family)中选择 t 检验(t tests)。然后,还需在「功效分析类型」(Type of power analysis)选项卡中选择“事前”(A priori)选项,因为我们是希望在实验正式开始前确定样本量。
图 3 在 G*Power 软件中选择统计检验和功效分析类型
接下来,我们需要在 t 检验这一个大家族的下拉菜单(在「统计测试」Statistical Tests选项卡中)里选出具体的一种(图 4)。可以看到,G*Power 把一些其他的相关检验(包括非参数检验)也放进了 t 检验的大类里。今天我们着重讨论的 t 检验的三个版本在菜单的中间(见图 4 红框标出部分)。
图 4 在 G*Power 软件中选择具体计划执行的统计学检验
我们就以成对样本的 t 检验(Means: Difference between two dependent means)为例(另外两种 t 检验类似),展示利用该软件对 t 检验进行功效分析的方法。选定了相应的 t 检验以后,我们可以在界面的左下方看到需要输入的参数(Input Parameters,图 5),包括单侧/双侧(Tail)、效应大小 dz(即前面介绍的 Cohen 氏 d 值)、显著性水平(α error prob)和功效(power)。假设我们在试点实验或荟萃分析以后,根据上文的公式算出预计效应大小为 0.3,另外三个参数分别选择双侧、0.05 和 0.8(图 5),填好以后即可点击右下方的「计算」(Calculate)按钮。
图 5 在 G*Power 软件中填写输入参数
完成上述步骤以后,我们就能在右下方的「输出参数」(Output Parameters)一栏中立刻得到,在这样的条件下,我们需要多大的样本量(两个组合起来)才能达到所需的统计功效:90(图 6)。也就是说,每一组分别需要 45 个数据点。
图 6 在 G*Power 软件中读取输出结果
如果你忘了效应大小 d 值的计算公式(或者就是懒得去算)呢?没关系!G*Power 早就看穿你了。这时,我们可以先不填写左下方输入参数中的效应大小,而是点击效应大小左边的「决定」(Determine)按钮。然后我们就会看到右边多出了一个窗口(图 7)。在成对样本的 t 检验里,这个新的窗口会提供两个选项。上方的「根据差值」(From Differences)也就是我们之前讨论过的把成对样本转换成单样本的方法;而下方的「根据分组参数」(From Group Parameters)则为直接计算效应大小,它会向我们询问关于两个样本的一些信息,包括均值、标准差等等。填好这些数值后,点击新窗口下方的「计算并转移至主窗口」(Calculate and Transfer to Main Window),我们就能得到 d 值 0.3,并且自动填在主窗口的效应大小一栏里了(有没有很想为 G*Power的设计者点个赞?)。有了效应大小,接下来的步骤就和之前的描述完全相同了。
图 7 在 G*Power 软件中自动计算效应大小
以上演示的是成对样本 t 检验的功效分析操作,另外两种 t 检验(单样本、独立样本)的操作也基本相同,只是个别要填写的信息稍有区别。
  注:文中图片为作者自绘。
回复「统计学」可查看「说人话的统计学」系列合辑,
或点击下方标题可阅读本系列全部文章
&&& 干货 &&&
&&& 自检 &&&
&&& 番外篇 &&&
作者:张之昊
编辑:灯盏细辛
  人赞赏
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
协和八,小医生的大世界!让临床妙趣横生,让思考更真诚,让生...一元线性回归分析中,检验相关系数r的显著性是t检验公式怎么推导的?_词汇网
一元线性回归分析中,检验相关系数r的显著性是t检验公式怎么推导的?
责任编辑:词汇网 发表时间: 7:55:02
如题,本人非专科出身,目前在准备cfa2级考试,定量那部分有相关系数显著性检验,但不明白t检验公式怎么来的,和概率论与数理统计里的t检验公式不一样啊,自由度也不一样,求教哪本教材有解释,跪谢!
上一集:没有了 下一集:
相关文章:&&&&&&&&&&
最新添加资讯
24小时热门资讯
附近好友搜索怎样用spss做 回归系数检验
AOI圣诞三0910
这里有一个例子,照着做就好了再看结果中的t值与F值的大小,t值越靠近1越好(但是要小于1),F值越接近0(但是要大于0)越好!Curve Estimation过程8.2.1 主要功能调用此过程可完成下列有关曲线拟合的功能:1、Linear:拟合直线方程(实际上与Linear过程的二元直线回归相同,即Y = b0+ b1X);2、Quadratic:拟合二次方程(Y = b0+ b1X+b2X2);3、Compound:拟合复合曲线模型(Y = b0×b1X);4、Growth:拟合等比级数曲线模型(Y = e(b0+b1X));5、Logarithmic:拟合对数方程(Y = b0+b1lnX)6、Cubic:拟合三次方程(Y = b0+ b1X+b2X2+b3X3);7、S:拟合S形曲线(Y = e(b0+b1/X));8、Exponential:拟合指数方程(Y = b0 eb1X); 9、Inverse:数据按Y = b0+b1/X进行变换;10、Power:拟合乘幂曲线模型(Y = b0X b1);11、Logistic:拟合Logistic曲线模型(Y = 1/(1/u + b0×b1X).8.2.2 实例操作[例8.2]某地1963年调查得儿童年龄(岁)X与锡克试验阴性率(%)Y的资料如下,试拟合对数曲线.年龄(岁)X 锡克试验阴性率(%)Y1234567 57.176.090.993.096.795.696.28.2.2.1 数据准备激活数据管理窗口,定义变量名:锡克试验阴性率为Y,年龄为X,输入原始数据.8.2.2.2 统计分析激活Statistics菜单选Regression中的Curve Estimation...项,弹出Curve Estimation对话框(如图8.5示).从对话框左侧的变量列表中选y,点击&O钮使之进入Dependent框,选x,点击&O钮使之进入Indepentdent(s)框;在Model框内选择所需的曲线模型,本例选择Logarithmic模型(即对数曲线);选Plot models项要求绘制曲线拟合图;点击Save...钮,弹出Curve Estimation:Save对话框,选择Predicted value项,要求在原始数据库中保存根据对数方程求出的Y预测值,点击Continue钮返回Curve Estimation对话框,再点击OK钮即可.8.2.2.3 在结果输出窗口中将看到如下统计数据:ndependent:XDependent Mth Rsq d.f.F Sigf b0 b1Y LOG .913 5 52.32 .001 61.4在以X为自变量、Y为应变量,采用对数曲线拟合方法建立的方程,决定系数R2=0.913(接近于1),作拟合优度检验,方差分析表明:F=52.32,P=0.001,拟合度很好,对数方程为:Y=61.4lnX.本例要求绘制曲线拟合图,结果如图8.6所示.图8.6 对数曲线拟合情形根据方程Y=61.4lnX,将原始数据X值代入,求得Y预测值(变量名为fit_1)存入数据库中,参见图8.7.图8.7 计算结果的保存
为您推荐:
其他类似问题
扫描下载二维码全站分类导航
|||||||||||||||
|||||||||||||||
版权所有& CopyRight , , All Rights Reserved

我要回帖

更多关于 回归系数t检验 的文章

 

随机推荐