要调查人群平均体重,怎么估算临床研究样本含量估算量

spss在医学统计中的应用
二零一二年九月 SPSS在医学统计中的应用(2012)本讲主要内容第一节 统计学基础2 /?545? 统计学的任务 ? 常用的统计学术语 ? 临床试验设计方案 ? 样本含量估计3 /?545统计学的任务? 结合专业知识和具体要求,进行统计研究一、统计学的任务设计 ? 收集和整理资料 ? 对所收集的资料进行统计描述和处理? 对统计处理的结果进行分析和解释,根据样本资料所提供的信息推断总体的规律性, 从而作出科学的结论4 /?5455 /?5456 /?545部 内讲? 包括调查设计和试验设计 ? 研究对象的纳入和排除标准 ? 分组方案 ? 观察指标 ? 样本量的确定 ? 拟使用的统计方法? 收集和整理资料 ?数据要经过周密的设计进行收集 ?收集的原始资料要准确、完整、充满信息 ?从专业的角度对资料的合理性、一致性进行检 查义7 /?545统计研究设计收集和整理资料1 SPSS在医学统计中的应用(2012)收集和整理资料――数据类型? 以往的分类方法 ?计量资料、计数资料、等级分组资料 ?弊病?应用起来容易混淆 ?如10个患者白细胞计数的资料收集和整理资料――数据类型? 更科学的分类方法 ?定量资料(quantitative data)?对每个观察对象,观测某个指标的具体数值计量资料?计数资料??定性资料 (qualitative data) ?对每个观察对象,观测某个指标的属性或特征 ?分为无序定性资料和有序/等级定性资料 ?举例:50个患者 ?记录每个人的血压(mmHg) ?根据临床诊断标准记录每个人是否患高血压8 /?545 9 /?545收集和整理资料? 数据类型辨析 ?例 采用免疫组化方法对45例毛细血管瘤、44例混合型血管瘤、18例海绵状血管瘤、23例淋巴管瘤及 6例正常皮肤组织(共136例)的ER受体进行检测。分析资料、解释结果? 分析资料 ?统计描述 ?统计推断?假设检验 ?研究变量之间的关系定 量 资 料免疫组化染色后高倍镜下每例肿瘤区内计数500 个细胞中阳性细胞数,计算ER阳性细胞的百分率。 目的:比较不同血管瘤组的ER阳性细胞百分率是 否存在差异。? 解释结果 ?有无统计学意义 ?有无专业意义10 /?54511 /?545? 变异二、统计学术语? 总体与样本 ? 误差 ? 概率与频率? 参数、统计量与自由度部 内讲13 /?54512 /?545义2几个常用的统计学术语 SPSS在医学统计中的应用(2012)变异? 不同的个体在相同的条件下某项指标中存总体与样本? 总体(population)?性质相同的研究对象所构成的集合在的差异称为变异(variance)? 变异是由众多的、偶然的、次要的因素造? 样本(sample)?从总体中随机抽取一部分研究对象构成的子集 ?样本中研究对象的个数称为样本含量(sample?成的size)14 /?54515 /?545总体与样本? 抽取样本的过程称为抽样(sampling) ? 抽样的原则:样本应具有?代表性 ?随机性 ?可靠性 ?可比性误差? 系统误差(system?error) ? 由确定原因引起的测量值与真实值呈倾向性的偏大 或偏小,必须克服 ? 随机测量误差(random?measurement?error) ? 由于非人为的偶然因素造成同一个体多次观测结果 不完全一样 ? 多次测量计算平均值可以减小甚至消除随机测量误 差 ? 抽样误差(sampling?error) ? 由于抽样造成的样本指标与总体指标之间的差别 ? 抽样误差不可避免,统计分析时可以计算,并在一 定范围内加以控制16 /?545 17 /?545? 概率(probability) ?描述事件发生可能性大小的量度,用P表示 ?三类事件?必然事件:P = 1 ?不可能事件:P = 0 ?随机事件:0 & P & 1? 频率(frequency) ?某事件出现的次数相对于总试验次数的百分比?随着试验次数无限增加,某事件出现的频率在18 /?545部 内?小概率事件 ?P≤0.05的随机事件 ?在一次抽样中基本上不可能发生某一确定值附近摆动并无限趋近于这个值,这 个值就确定为该事件出现的概率?在医学统计中常将频率称为率,如患病率、有效率,这时频率也称为统计概率讲P?f N义19 /?545概率与频率概率与频率3 SPSS在医学统计中的应用(2012)参数与统计量? 参数(parameter)?表征总体特性,如总体均数、总体标准差、总参数、统计量与自由度? 参数和统计量抽样误差体率 ?一般用希腊字母表示,如μ、σ、π? 统计量(statistic)?表征样本特性,根据观察值计算得出,如样本参数 (? ,? )随机抽样总体统计推断样本统计量 ( X , s)均数、样本标准差、样本率 ?一般用英文字母表示,如 、S、P20 /?54521 /?545试验设计? 试验设计的原则三、试验设计方案?随机、重复、对照、均衡? 常用试验设计方法?配对设计与随机区组设计、重复测量设计 ?成组设计与多组完全随机设计 ?具有重复测量的设计 ?析因设计22 /?545 23 /?545? 随机化的原则?总体中任何一个个体都有同等的机会被抽取进? 重复的原则?在相同的试验条件下进行多次观察,即要求各入样本?样本中任何一个个体都有同等机会被分配到任何一个组中去?对样本含量的要求是:既要保证试验结果可靠,又要避免不必要的浪费 ?精选的小样本优于庞杂的大样本24 /?545部 内讲处理组的试验单位都要有一定的数量,要考虑 样本含量的大小义25 /?545试验设计的原则试验设计的原则4 SPSS在医学统计中的应用(2012)试验设计的原则? 设立对照的原则?在试验中设立相互比较的试验组和对照组,对试验设计的原则? 均衡的原则?在试验中,对照组与试验组中的非处理因素尽各组给予不同的处理,并观察各组的结果 ?设立对照的形式?空白对照 ?安慰剂对照 ?试验对照 ?标准对照 ?自身对照量达到相同或相近,以消除非处理因素对试验 效应的影响?在动物实验中,各处理组的动物应在种属、窝别、性别、体重等方面基本保持一致?在临床试验中,要求各治疗组患者的年龄、性别、病情、病程、病型等基本一致26 /?54527 /?545常用试验设计方法? 配对设计(paired?design) ?自身配对设计:对每个受试对象,分别?观察处理/治疗前后某指标 ?观察身体对称或不同部位某指标 ?用两种方法观察某指标常用试验设计方法? 配对设计?异体配对设计:将条件(专业知识)相同的受试对象配成对子,在对子内部将两个受试对象 随机分配到不同组,测量实验值28 /?54529 /?545? 配对设计? 随机区组设计(random?block?design)随机分配到各处理组中?把条件一致的研究对象编入同一区组并将它们?对同一研究对象用不同方法或在不同部位对某一指标进行测定,所得结果是一种随机区组设 计资料30 /?545部 内讲?如果每个区组只有两个对象,则为配对设计义31 /?545常用试验设计方法常用试验设计方法5 SPSS在医学统计中的应用(2012)常用试验设计方法? 重复测量设计(repeated measurement?design)?对一组或多组受试对象,在多个不同的时间点常用试验设计方法? 重复测量设计上,对每个个体重复观测同一指标的实验值?例 24例原发性肝癌病例随机等分为对照组和研究 组。监测治疗前、治疗后不同时间点上生化指 标、氮平衡、整体营养状况评分、生活质量评分 和近期疗效。配对设计32 /?545 33 /?545常用试验设计方法? 完全随机设计(completely?random?design)?将观察对象随机分配为两组或多组,每组接受常用试验设计方法? 完全随机设计――成组设计一种处理,形成两个或多个样本?将研究对象随机分配到各个试验组进行观察 ?从不同人群中随机抽样进行对比观察73例骨质疏松症患者为本院门诊及住院病人,正常 对照组50例,为本院健康体检者。34 /?54535 /?545? 完全随机设计――多组36 /?545部 内讲? 析因设计( factorial?design?) ?对多个处理因素(factor)的各水平(level)的 所有组合进行试验 ?可以研究各因素的主效应(main?effect)以及 各因素间的交互作用(interaction)义37 /?545常用试验设计方法常用试验设计方法6 SPSS在医学统计中的应用(2012)常用试验设计方法? 析因设计 ?例 选择16例接受促红细胞生成素(EPO)治疗的腹膜透析(PD)患者,随机分成A、B两组;另外选择 10名不接受EPO治疗的PD患者,随机分成C、D两组。 B、D两组还要同时接受血管紧张素转换酶抑制剂 (ACEI)的治疗,A、C两组不接受ACEI治疗。测 定治疗前后每个患者血清EPO的浓度,比较4个组 治疗前后血清EPO的差值是否存在差异。常用试验设计方法? 析因设计组别 A B C D EPO浓度差值 0.6±0.9 0.7±0.5 -0.6±0.6 13.6±2.3 是否接受 ACEI治疗 是(BD) 否(AC) 是否接受EPO治疗 是(AB) 0.7±0.5 0.6±0.9 否(CD) 13.6±2.3 -0.6±0.6完全随机设计?38 /?54539 /?545影响样本含量的因素四、样本含量估计? 第一类错误的概率α ?第一类错误即假阳性错误 ?α越小所需样本量越大,一般取α=0.05 ? 检验效能(power) ?即两总体确有差别时,按α水准发现它们有差 别的能力 ?Power越大所需样本量越大,一般power要达到 80%以上40 /?54541 /?54542 /?545部 内? 最小差值δ ?期待检出的最小差异或客观上可能存在的差异 ?δ越小所需样本量越大 ? 总体标准差σ ?σ越大所需样本量越大 ?实际应用中可通过样本标准差来估计 ? 试验设计的类型 ?完全随机设计所需样本量多 ?配对设计和随机区组设计所需样本量较少? 成组定量资料比较2? 成组定性资料比较n1 ? n 2 ? 2?u?P1和 P2:两样本率, P :两样本合并率43 /?545讲? u ? ? P ?1 ? P ?2? ?u ? u ? ?S ? S :两样本联合标准差 n1 ? n 2 ? 2 ? ? ? ?:两样本均数差 ? ? ??P1 ? P2 ?2义u 0.05 ,双 ? 1 .96 u 0.20 ,单 ? 0 .84影响样本含量的因素样本含量的计算7 SPSS在医学统计中的应用(2012)调查研究中的样本含量估计? 允许误差δ,即预计的样本统计量与相应总样本含量的计算? 估计总体均数所需样本量n? z? 2? 2体参数之间的最大误差 ? 所调查总体的标准差σ或总体率π ? 第一类错误的概率α,即以α水平估计参数 时,估计错误的可能性不超过α,通常取 α=0.05?22 z? ? ?1 ? ? ?? 估计总体率所需样本量n??244 /?54545 /?545样本含量的计算? 定量资料配对设计时所需样本含量用某药治疗矽肺患者后,尿矽排出量平均比治疗前增加 1.5mg/100ml,其标准差为2.5mg/100ml。假定该药确能 使尿矽排出量增加,定α=0.05(单侧),β=0.10,问 需观察多少患者才能得出服药前后尿矽排出量有差别的 结论?样本含量的计算? 采用成组设计时所需的样本含量在动物镇咳试验中,比较中药复方Ⅰ与复方Ⅱ使小鼠推 迟发生咳嗽的时间,复方Ⅰ和复方Ⅱ的平均值分别为 31.7秒和44.0秒(δ=44.0-31.7=12.3秒)。设两组标 准差均为25秒,α=0.05,β=0.10,要得出两组有差别 的结论,问需用多少只小鼠?需观察25人每组需用小鼠89只,共178只46 /?54547 /?545? 两总体率比较时所需的样本含量用旧药治疗慢性气管炎的近控率,根据过去的经验为20 %。现拟试用新药治疗,以旧药为对照,要求新药的近 控率须达到40%才值得推广使用。令α=0.05(单侧), β=0.10,问每组最少要多少病例?? 估计总体均数时所需的样本含量每组需要90个病例,共180例需调查387人48 /?545部 内讲拟抽样调查了解某地区正常成年人白细胞数的平均水 平。希望误差不超过100个/mm3。据文献记载,正常成 年人白细胞数的标准差约为1000个/mm3。取α=0.05, 问需调查多少人?义49 /?545样本含量的计算样本含量的计算8 SPSS在医学统计中的应用(2012)样本含量的计算? 估计总体率时所需的样本含量拟抽样调查了解某地小学生蛔虫感染率。假定以往该 地小学生蛔虫感染率P=50%,要求误差不超过3%。如 取α=0.05,问需调查多少人?第二节 在SPSS中建立数据文件需调查1067人50 /?54551 /?545建立和管理数据文件? SPSS概述 ? 数据录入 ? 数据变换 ? 数据整理一、SPSS概述52 /?54553 /?545? 弄清分析的目的,以统计理论为主线学习软件工具 ? 正确收集待处理和分析的数据? 弄清统计概念和统计含义,知道统计方法? 优势 ?操作界面友好?强大的辅助教学功能?图形操作界面,输出结果美观的使用范围,无需记忆公式? 读懂计算机分析的数据结果,发现规律,?中文兼容问题已完全解决得出分析结论54 /?545部? 劣势 ?计算速度相对较慢 ?统计模型的纳入相对滞后讲55 /?545内义9学习统计软件的方法SPSS的基本特点 SPSS在医学统计中的应用(2012)SPSS窗口介绍? 数据编辑窗口 ?数据表?标准的电子表格 ?数据视图:主要操作界面 ?变量视图:用于定义变量SPSS窗口介绍? 结果浏览窗口 ?可以对以表格形式输出的结果进行编辑 ?可以将输出结果导出为文件?单元格编辑器 ?显示精确数值 ?不能直接输入公式 ?菜单、快捷工具栏、状态栏56 /?545 57 /?545SPSS窗口介绍? 程序编辑窗口 ?编写、调试和运行SPSS程序 ?功能集中体现在“Run”菜单中二、数据录入58 /?54559 /?545? 欲比较急性克山病患者与当地健康人的血? SPSS数据文件是一种有结构的数据文件变量名磷值有无差异,随机测量各6人,数据如下:?患? 请建立数据文件,并进行分析设计变量 定义变量 输入数据记录Case讲: 2 : 3 ……者:4.75,??6.40,??2.62,??3.44,??6.50,??5.20 ?健康人:2.38,??2.60,??2.10,??1.80,???2.65,??1.90年级 1 2 : 1性别 1 2问题1 3 1部 内变量Variable60 /?545义…… …… …… 问题n 4 2 : 161 /?545一个数据录入实例SPSS数据文件的特点10 SPSS在医学统计中的应用(2012)设计变量? 统计表格格式序号 1 2 3 样本量 第一组 0.1 0.2 0.3 3 1 1 1 2 2 : 第二组 0.4 0.5 0.8 3 0.1 0.2 0.3 0.4 0.5 :62 /?545设计变量第三组 0.6 0.7 2? SPSS统计分析格式? 基本原则 ?不同观察对象的数据不能在同一行中出现 ?每个观测指标/因素只能占据一列位置,即同一 指标的测量数值都应当录入到同一变量中 ?最终数据集应当能够包含原始数据的所有信息 ? 例外情况 ?重复测量设计的数据,同一指标不同时间上的 结果放在不同变量中 ?异体配对设计的数据,两只动物的观察数据放 在一行上63 /?545设计变量? 本例需要建立两个变量 ?一个代表血磷的测量值,取名为x ?一个代表观察对象所属人群,取名为group定义变量? 变量名Name ?变量名不能重复 ?1~64个字符,可以包含汉字 ?不区分大小写 ?不能使用“?”、“*”、“!”、“’”及空格测度变量名 类型宽度变量标签 缺失值 小数位 值标签 列宽对齐64 /?54565 /?545? 变量类型Type ?数值型Numeric?应用最为广泛? 变量测度Measure ?标度测度(Scale)?对应定量变量,如温度、体重、……66 /?545部 内?日期型Date ?实际上是特殊的数值型变量 ?可进行加减运算?名义测度(Nominal) ?对应无序分类变量,如血型、地区、……讲?字符型String ?录入易出错,建议尽量少用,改为编码录入 ?字符型变量不能用作方差分析中的分组变量?有序测度(Ordinal) ?对应有序分类变量,默认数字顺序表示大小顺序, 如疗效、化验结果、……义67 /?545定义变量定义变量11 SPSS在医学统计中的应用(2012)定义变量? 变量测度Measure ?变量测度一般不影响统计分析 ?主要影响统计制图定义变量? 变量标签Label ?对变量名的含义进行说明 ?0~256个字符 ? 值标签Value?Label ?对变量值的含义进行说明 ?0~60个字符 ?只用于分类变量 ?利用变量值标签加快录入速度68 /?545 69 /?545定义变量? 缺失值Missing?Value ?系统缺失值system?missing?value:没有观察到的 数据值 ?用户缺失值user?missing?value:用户定义的不参 加分析的数据值定义变量? 练习 数据文件EG0101.sav ?为每个变量设置适当的测度 ?修改变量pt(手术方式)的值标签:环型、Z型、 吻合器 ?将变量bn(输血次数)的值“0”设为缺失值 ?修改变量hct的变量标签:红细胞压积70 /?54571 /?545? 与Excel文件交换数据 ?复制/粘贴?数值:可以直接粘贴 ?文本:先在SPSS中定义类型,再复制/粘贴 ?优点:速度快 ?缺点:需要逐个定义SPSS的变量原始数据中的第 一行为变量名工作表名 单元格范围, 默认为全部?在SPSS中直接打开Excel文件 ?无论哪种方法都最好先将文本转换成数值编码Exceldata.xls72 /?545部 内讲73 /?545义12导入Excel文件数据导入Excel文件数据 SPSS在医学统计中的应用(2012)Transform菜单? 与变量相关的数据整理通过Transform菜单三、数据变换完成?对数据进行公式计算 ?对数据进行编码 ?求出数据的秩次 ?替换缺失值 ?……74 /?54575 /?545公式计算:Compute? 用于计算新变量,或者给原有变量赋值 ? 有大量的SPSS函数(function)可供使用 ? SPSS条件表达式用于指定参加计算的记录Compute? 例题 compute.sav ?求病毒载量(VL)的常用对数 ?根据半径求面积 ?对患有糖尿病的病例计算每例的平均得分 ?根据出现各种并发症的情况确定是否出现了任 意一种并发症76 /?54577 /?545? 求病毒载量(VL)的常用对数函数名后圆括号 内输入原变量名 输入新变量名 函数分类内置函数部 内讲79 /?545? 常用数学类(Arithmetic)函数 ?Ln:自然对数 ?Lg10:常用对数 ?Sqrt:平方根 ?Exp:e的幂次方78 /?545义13ComputeCompute SPSS在医学统计中的应用(2012)Compute? 根据半径求面积Compute? 对糖尿病的病例计算平均得分算术运算 关系运算乘方 设置条件80 /?54581 /?545Compute? 关系运算符小于 大于 大于等于 小于等于Compute? 根据出现各种并发症的情况确定是否出现了并发症逻辑运算不等于 与 非82 /?545 83 /?545等于或? Recode过程 ?Recode?into?Same?Variable:修改原变量 ?Recode?into?Different?Variable:生成新变量 ? 对连续型变量进行分组 EG0101.sav ?例:按月龄生成年龄段,12个月以下、13~36 个月、37~72个月、73个月以上 ? 对分类变量合并类别 ?例:将疾病部位合并为直肠和结肠两大类84 /?545? 生成年龄段(2)部 内讲新变量的标签 设置规则义新变量名(1)85 /?545重新编码:RecodeRecode14 SPSS在医学统计中的应用(2012)Recode? 输入规则Recode? 注意?新变量的值生成以后,不会因为规则的改变而自动改变?进行新的Recode时,输入规则前先单击【 Reset】删除原先的规则 ?修改规则:选中规则,修改后单击【Change】 ?删除规则:选中规则,单击【Remove】? 注意:所有范围都包括端点86 /?545 87 /?545Recode? 对疾病部位重新分类Recode? 对疾病部位重新分类(1)(2)88 /?54589 /?545讲自动生成值标签? 对病人按月龄分段 EG0101.sav ?例1:按月龄生成年龄段:12个月以下、13~36 个月、37~72个月、73个月以上 ?例2:按每12个月一段生成年龄段 ?例3:将月龄按人数等分成5个年龄段输入新变量名输入各组 段的上限90 /?545部 内义自动分段91 /?545可视化分段:Visual BinningVisual Binning15 SPSS在医学统计中的应用(2012)Visual Binning? 例1Visual Binning? 例2:每12个月一段【Make Cutpoints】第一段的上限12个月以下、 13~36个月、 37~72个月、 73个月以上手工输入自动生成每12个月一段92 /?54593 /?545Visual Binning? 例3:按人数等分成5个年龄段练习? 文件 EG0403.sav ?将变量weight按其取值等分为5段,形成新变量 weight_seg1,取值为1~5 ?将变量weight以四分位数为界分为4段,形成新 变量 weight_seg2,取值为1~4【Make Cutpoints】5个段则4个 分段点94 /?54595 /?545部讲97 /?545四、数据整理? 数据整理通过Data菜单完成 ?排序 ?转置 ?合并 ?筛选 ?查找 ?重构 ?……96 /?545内义16Data菜单 SPSS在医学统计中的应用(2012)记录排序:Sort Cases? 将记录按某变量排序,有利于查找、修改 ? 将数据按某个变量升序或降序排列后,可Sort Cases? 按一个变量排序 ?变量名上单击右键,Sort?Ascending/Descending ? 根据多个变量按先后顺序排序先按性别 升序排序以发现输入的错误,因为它们往往就是最 大/最小值? 缺失值在排序时会排在最小值的前面,因此可以通过排序的方法很快发现哪些数据 缺失性别相同的按 月龄降序排序98 /?54599 /?545发现重复记录? Identify?Duplicate?Cases ? 快速定位变量值相同的记录记录筛选:Select Cases? 筛选数据的方法 ?按条件筛选?例1:筛选出月龄大于13个月的男性病例?从数据集中随机抽样 ?例2:随机抽取70%的病例 ?按记录号范围筛选 ?例3:筛选前50个病例 ?设置过滤器变量 ?例4:筛选出感染的病例100 /?545 101 /?545? 例1:筛选出月龄大于13个月的男性病例? 例2:随机抽取70%的病例102 /?545部 内讲103 /?545义17Select CasesSelect Cases SPSS在医学统计中的应用(2012)Select Cases? 例3:筛选前50个病例Select Cases? 例4:筛选出感染的病例过滤器变量取值 为1的病例被选中104 /?545105 /?545Select Cases? 练习 ?对文件 EG010102.sav?进行逻辑检查,看看是否 存在输血次数为0但输血量不为0、或输血次数 不为0但输血量为0的病例 ?对文件 EG010101.sav?进行各种可能的数据清理第三节 基本统计描述106 /?545107 /?545? 定量资料的统计描述?集中趋势 ?离散趋势 ?分布情况一、定量资料的统计? 定性资料的统计描述 ? SPSS的统计描述模块108 /?545部 内讲描述109 /?545义18主要内容 SPSS在医学统计中的应用(2012)集中趋势1.?算术平均数(arithmetic?mean)?简称均数,总体均数μ ,样本均数 ? ?适用于对称分布、特别是正态分布的资料,不集中趋势2.中位数(median,M)?中位数是一组观察值的中间位置平均数 ?用于描述偏态分布资料的集中趋势 ?它不受两端特大、特小值的影响,当分布末端适用于偏态分布的资料 ?计算方法:各观察值xi总和除以观察值个数nx? x1 ? x2 ? ... ? xn ? xi ? n n无确切数据时也可计算?从理论上讲,正态资料的中位数等于均数110 /?545111 /?545集中趋势3.百分位数(percentile)?百分位数表示某一位置上的平均水平,主要用集中趋势4.截尾均数(trimmed?mean)?数据排序后按照一定比例去掉两端的数据后求于非正态资料?第x百分位数Px的含义:所有观察值中,有x%个得的均数?适用于两端有极端值的资料 ?常用5%截尾均数观察值小于Px,有(100\x)%个观察值大于Px?样本例数不够多时,两端的百分位数不稳定 ?常用的百分位数有P5、P25、P50、P75、P95 ?可用于确定参考值范围(reference?range)112 /?545113 /?5455.几何均数(geometric?mean?,G)?几何均数是将n个观察值相乘后再开n次方所得 ?适用于对数正态分布的定量资料,如抗体的滴6.众数(mode)?样本数据中出现频次最高的数值?适用于单峰对称的数据,反映出现频次最高的7.?调和均数(harmonic?mean)?观察值倒数的均数的倒数,较少使用114 /?545部 内讲度 ?应用中要注意观察值中不能同时有正有负数据情况义115 /?545集中趋势集中趋势19 SPSS在医学统计中的应用(2012)离散趋势离散趋势? 对定量资料的描述需要将集中趋势和离散趋势相结合,才能对其分布有全面认识 ? 描述离散趋势的常用指标?全距 ?四分位数间距 ?方差 ?标准差 ?变异系数116 /?545117 /?545离散趋势1.?全距(Range)?又称极差,即最大和最小观察值之差 ?只利用了两端的数值,未利用全部观察值 ?全距不够稳定离散趋势2.四分位数间距(interquartile?range,IQR)?IQR=?QU C QL,其中QU =?P75 , QL =?P25 ?四分位数间距比极差稳定,但仍未考虑每个观察值的变异度?适用于偏态分布的资料,特别是末端无确切数据时118 /?545119 /?5453.?方差(variance?)?离均差平方和SS(sum?of?squares?of?deviations?4.?标准差(standard?deviation,SD)?方差的算术平方根即标准差?x ? ? ? ?? ?n?总体均数未知时用样本均数代替,则得到样本nS2 ?n ?1120 /?545部 内方差S 2? ?x ? x ?2讲2from?mean)可用来描述资料的变异程度 ?方差(均方差,MS)为SS的均数,不受观察值 个数的影响,可以更好地描述资料的离散程度 ?x ? ? ?2 ?2 ? ??标准差也有总体标准差和样本标准差之分S?? ?x ? x ?n ?1义2121 /?545离散趋势离散趋势20 SPSS在医学统计中的应用(2012)离散趋势4.?标准差?方差和标准差适合于对称分布,特别是正态分离散趋势4.?标准差与标准误?标准差SD,Standard?Deviation;标准误SE,布及近似正态分布资料 ?标准差的用处?描述和比较资料的离散程度 ?与均数结合求参考值范围 ?与均数结合计算标准误(Standard?Error)Standard?Error?标准差表示观察个体的离散程度,标准误表示样本均数的离散程度 ? 在一次抽样中,SE ? SD / n? x ? 1.96SD 表示95%正常值范围 (Confidence Interval,CI) x ? 1.96SE 表示95%置信区间注意区分标准差与标准误这两个概念!122 /?545123 /?545离散趋势5.变异系数(coefficient?of?variation,?CV)?比较多组资料的变异度 ?均数相差悬殊 ?资料的单位不同 ?标准差与均数之比正态分布? 定量资料的分布曲线CV ?S ?100% X?当样本量越来越大、组距越来越小时,直条的顶缩成点,并且各个直条的顶连接成一条曲线 即为分布曲线124 /?545125 /?545? 描述分布的指标 ?偏度系数(Skewness):反映频数分布曲线的 高峰是偏左、居中还是偏右?小于0,负偏态,高峰偏右 ?等于0,正态,曲线对称 ?大于0,正偏态,高峰偏左? 描述分布的指标 ?峰度系数(Kurtosis):反映频数分布曲线的高 峰是平阔峰、正态峰还是尖峭峰?等于0,正态峰 ?大于0,尖峭峰126 /?545部?偏度系数和峰度系数均为0的分布为正态分布讲?小于0,平阔峰内义127 /?545正态分布正态分布21 SPSS在医学统计中的应用(2012)正态分布? 正态分布曲线的特征 ?正态分布曲线以均数为中心,左右对称 ?正态曲线为单峰,在横轴上方均数处达到最高 ?正态曲线下的面积分布有一定的规律 ? 正态分布有两个参数,均数和标准差 ?峰的平阔和尖峭与标准差有关 ?均数为0、标准差为1的正态分布称为标准正态 分布正态分布? 正态曲线段下的面积为相应的累积概率2.5%95%2.5%-5? ? 1.96?? ? 1.96?? ? 1.96?128 /?545129 /?545正态分布? 总体均数的区间估计 ?标准误 S X :描述参数估计值与真实值的距离 ?总体均数的95%置信区间:X ? 1.96S X ? ? ? X ? 1.96 S X二、定性资料的统计 描述130 /?545131 /?5451.?频数分布情况的描述?频数、百分比、累积频数、累积百分比? 构成比?事物内部某一组成部分的观察单位数与该事物2.?集中趋势的描述?众数各组成部分观察单位总数之比3.?相对数?构成比、率分布情况 ?事物内部各组成部分的构成比之和为1?率频率或强度132 /?545部?说明一段时间(单位时间)内某个事件发生的讲?常用来说明事物内部各组成部分所占的比重或内义133 /?545统计描述指标统计描述指标22 SPSS在医学统计中的应用(2012)统计描述指标? 构成比与率 ?例:某地3\4岁儿童(2万人)及10\14岁儿童 (4万人),急性传染病患病情况病 名 猩红热 麻 疹 百日咳 白 喉 痢 疾 合 计 3~4岁 病例数 构成比% 292 36.5 264 33.0 145 18.1 53 6.6 47 5.9 801 100.0 10~14岁 病例数 构成比 % 107 35.2 64 21.1 14 4.6 58 19.1 61 20.1 304 100.0统计描述指标? 构成比与率 ?例:某地3\4岁儿童(2万人)及10\14岁儿童 (4万人),急性传染病患病情况病 名 10\14岁儿 童更容易 患白喉? 猩红热 麻 疹 百日咳 白 喉 痢 疾 合 计 3~4岁 病例数 发病率(/万) 292 146.0 264 132.0 145 72.5 53 26.5 47 23.5 801 400.5 10~14岁 病例数 发病率(/万) 3\4岁儿童 更容易患 107 26.8 白喉! 64 16.0 14 3.5 58 14.5 61 15.3 304 76.0134 /?545135 /?545Descriptive Statistics 模块三、SPSS统计描述模块136 /?545137 /?545? 产生频数表,对连续变量和分类变量都适用 ? 计算常用的统计指标,按要求给出百分位数 ? 绘制常用的条图、饼图、直方图 ? 变异系数CV需手工计算? 主对话框EG0101.sav138 /?545部 内讲139 /?545义23Frequencies过程Frequencies过程 SPSS在医学统计中的应用(2012)Frequencies过程? Statistics子对话框百分位数 集中趋势Frequencies过程? Charts子对话框直条图 饼图离散趋势分布特征直方图 带正态曲线140 /?545141 /?545Frequencies过程? 结果Descriptives 过程? 适用于正态分布资料 ? 可以保存正态标准化结果(Z\score)?正态标准化的目的是将不同数量级的指标统一到一个数量级上?公式Ske 1.277 ? ? 4.91 ? 1.96 , 不能认为Ske ? 0 SESke 0.26 Kur 1.613 ? ? 3.14 ? 1.96, 不能认为Kur ? 0 SEKur 0.514xi? ?不能认为hct正态xi ? x S?结果:均数为0、标准差为1142 /?545 143 /?545? 正态标准化? 探索性分析? 主对话框中加入了因素变量(分组变量)144 /?545部 内讲145 /?545义24Descriptives 过程Explore过程 SPSS在医学统计中的应用(2012)Explore过程? Statistics对话框Explore过程? Plots对话框一般描述 箱式图 均数的稳健估计 异常值 百分位数 正态分布图和 正态性检验 茎叶图和 直方图组间方差齐性检验146 /?545147 /?545正态性检验? 一般认为P?&0.2数据正态,也有以P?&0.05为正态性检验样本小于50例界限的样本大于50例,&.200*& 表示P&0.200148 /?545149 /?545QU点越集中在直 线上越正态M QL150 /?545部 内讲义异常值151 /?545正态性检验正态性检验25 SPSS在医学统计中的应用(2012)统计描述实例? 分别按性别和不按性别对变量hct做描述 ?Data\&Split?File:?拆分文件 ?Frequencies过程:利用百分位数计算正常值范 围 ?Descriptives过程:如果正态则生成Z值 ?Explore过程:一般描述、正态性检验、箱式图 和直方图第四节 简单均数间的比较153 /?545152 /?545简单均数间的比较? 假设检验原理 ? 单样本t检验 ? 两样本t检验 ? 配对样本t检验 ? 多个独立样本的单因素方差分析一、假设检验原理154 /?545155 /?545? 研究者关心的并不仅仅是样本中所包含的? 现有的样本均数和已知总体均数不同,其?近年来的大规模调查表明,某地婴儿出生体重差异156 /?545部 内均数为3.10kg(可认为是总体均数)。今随机 调查得25名难产儿平均出生体重为3.31?kg,标 准差为0.41?kg。难产儿的体重是否不同于一般 婴儿?? 为识别这两种可能,应当对其做假设检验讲个体,更希望得到相应的总体间有无差别 的结论――假设检验 ? 分析实例差别可能由两个方面的原因造成?样本来自已知总体,现有差别为抽样误差?样本所来自的总体与已知总体不同,存在本质义157 /?545为什么要做假设检验假设检验原理26 SPSS在医学统计中的应用(2012)生活中隐含的假设检验? 掷骰子,猜点数 ?正常情况下6个点的出现概率相等,为1/6 ?掷n次全猜错的概率为(5/6)n? ? 抽样:某人掷骰子30次,猜对0次,在正常假设检验的原理? 小概率事件原理:一般认为小概率事件在一次随机抽样中不会发生 ? 基本思想?建立一个关于样本所属总体的假设 ?考察在假设条件下出现随机样本的事件是否属情况下出现该样本的概率P=?运气实在太差 ?骰子有鬼,人为控制结局(5/6)30?=0.0042小概率事件!于小概率事件?若为小概率事件,则认为假设成立将有悖于该样本所提供的特征信息,故不能认为假设成立158 /?545159 /?545假设检验的基本步骤一、建立假设?根据统计推断的目的提出对总体特征的假设 ?无效假设 (null?hypothesis),记为H0 ?与H0对立的备择假设 (alternative?hypothesis),记为H1。 在H0被拒绝时供采用,两者是互斥的,非此即彼假设检验的基本步骤二、确定检验水准?检验水准常用α表示,是无效假设H0本来成立、但根据样本信息却拒绝了H0的可能性大小的度 量,即α是拒绝了实际上成立的H0的概率 ?常用的检验水准为α=0.05H 0 : ? ? ?0 , H1 : ? ? ?0 H 0 : ? ? 3.10kg , H1 : ? ? 3.10kg160 /?545161 /?545三、计算检验统计量和P值?P值即从H0假设的总体中抽出现有样本的概率 ?例如,H0为“骰子公平(掷30次应猜对5次左 右)” ,现有样本为“猜对0次”,P值为出现这一 样本的概率,P=0.0042 ? 假设检验的目的就是计算本应猜对5次而实际猜对0 次的概率三、计算检验统计量和P值四、得出推断结论?按照事先确定的检验水准界定上面所得P值,按162 /?545部 内小概率原理认定对H0的取舍,做出推断结论163 /?545讲?检验统计量的特点 ?检验统计量应当服从某种已知分布,从而可以计算 出P值 ?各种检验方法所利用的分布及计算原理不同,从而 检验统计量也不同义27假设检验的基本步骤假设检验的基本步骤 SPSS在医学统计中的应用(2012)假设检验的基本步骤四、得出推断结论?若P≤α ?基于H0假设的总体情况下出现了小概率事件 ?拒绝H0,接受H1 ?可以认为样本与总体的差别不仅仅由抽样误差造成, 还可能存在本质差别,属非偶然的(significant), 因此认为两者的差别有统计学意义 ?进一步根据样本信息引申,得出实用性结论假设检验的基本步骤四、得出推断结论?若P&α ?基于H0假设的总体情况出现了很常见的事件 ?样本与总体间的差别尚不能排除纯粹由抽样误差造 成,可能的确属于偶然的(non\significant),故尚 不能拒绝H0? ?因此认为两者的差别无统计学意义,但这并不意味 着可以接受H0?164 /?545165 /?545Ⅰ类错误和Ⅱ类错误实际情况 H0成立 H0不成立 检验结果 拒绝H0 Ⅰ类错误(α) 正确(1\β) 不拒绝H0 正确(1\α) Ⅱ类错误(β)假设检验应注意的问题? 统计方法一般有其适用条件 ?独立性(independence):各观察值间相互独立 ?正态性(normality):理论上要求样本取自正态总 体――参数检验 ?方差齐性(homogeneity):两样本所对应总体方 差相等――参数检验 ? 当违反条件时可采取的措施 ?换方法 ?对数据进行变换等处理,使之符合条件166 /?545 167 /?545? 检验效能:H0不成立,则实际上拒绝H0的概率1\β称为检验效能(power) 一般应大于80%? 在分析实际问题时检验效能不应当太低,? 结论不能绝对化 ?结论本身就保留了犯错误的可能性 ?样本量导致的检验效能问题?样本量太小,导致检验效能不足,从而无法检出可二、单样本t检验能存在的差异?样本量太大,得出的有统计学意义的结论可能根本就没有实际意义168 /?545部 内讲169 /?545义28假设检验应注意的问题 SPSS在医学统计中的应用(2012)统计理论复习? 推断样本是否来自某已知总体,即检验样统计理论复习? 假设H0成立,即差异由抽样误差造成;在本所在总体的均数是否等于已知总体均数? 统计学上采用小概率反证法的原理,有如下两种假设?H0:样本均数与总体均数的差异完全由抽样误差造成 ?H1:样本均数与总体均数的差异除由抽样误差 造成外,也反映了两个总体均数确实存在的差 异170 /?545该前提下,样本是从已知均数的总体中抽 出的 ? 样本均数与已知总体均数之差 x ? ? 0 代表了 v=25 实际偏离假设的程度 ? 差异还与样本均数的离散程度有关 v=5t? x ? ?0 Sxv=2?单样本情况下,样本均数的抽样分布服从t分布171 /?545统计理论复习? 最终求得的P值表示从假设总体中抽出当前统计理论复习? 某地婴儿平均出生体重为3.10kg,随机调查样本均数的概率 ? 如果该P值太小(P≤α),成为了小概率事 件,则怀疑所做假设不成立,从而拒绝H0 ? 反之,就不能拒绝H0,但并不意味着接受H025名难产儿的平均出生体重为3.31?kg±0.41? kg,难产儿的体重是否不同于一般?H 0:难产儿的体重与一般 婴儿相同 t? x ? ? 0 x ? ? 0 3.31 ? 3.10 ? ? ? 2.56 Sx S n 0.41 25P ? 0.017 ? 0.05,拒绝 H 0172 /?545173 /?545? 例:10?例男性矽肺患者的血红蛋白(g/dl)如 血红蛋白.sav 下(平均为12.59g/dl):病历号 血红蛋 白(g/dl) 1 11.3 2 15.0 3 15.0 4 13.5 5 12.8 6 10.0 7 11.0 8 12.0 9 13.0 10 12.3? 已知男性健康成人的血红蛋白正常值为14.02(g/dl),问矽肺患者的血红蛋白是否 不同于一般?174 /?545部 内讲已知总体均数175 /?545义29实例分析实例分析 SPSS在医学统计中的应用(2012)实例分析样本量 均数 标准差 标准误实例分析? 结论 ?由检验结果t=\2.77,P=0.022可知,由于P&检 验水平0.05,故拒绝H0,可以认为样本所在总 体的均数与假设的总体均数不相等,即可以认 为矽肺患者的血红蛋白含量低于正常值14.02 (g/dl)95%CI不包含0则相应P&0.05176 /?545177 /?545完全随机的两样本t检验? 目的?推断两个样本是否来自相同的总体,即检验两三、两独立样本t检验样本所代表的总体均数是否相等? 检验假设 ?无效假设 H 0 : ?1 ? ? 2 ?备择假设 H1 : ?1 ? ? 2 ?检验水准 ? ? 0.05178 /?545179 /?545? 情况较轻时可以采用校正t检验的结果 ? 否则应该使用变量变换使之满足条件 ? 或采用非参数检验过程t?180 /?545部 内x1 ? x2 S x1 ? x2讲? 统计理论复习 ?采用小概率反证法 ?首先假设H0:两样本来自同一总体 ?当该总体服从正态分布时,采用两样本t检验来 计算从该总体中抽得这样两个样本的概率为多 少,从而做出统计推断? 统计理论复习?由于涉及到两样本均值,因此除了要求总体服从正态分布外,还要求两样本各自所在总体方 差相同 ?应用条件不被满足时义181 /?545完全随机的两样本t检验完全随机的两样本t检验30 SPSS在医学统计中的应用(2012)实例分析? P42例3.3:EG0303.sav ?数据为定量资料,设计为完全随机两样本设计 ?首先进行正态性检验和方差齐性检验 ?满足条件时进行t检验方差齐性检验的Explore过程? Plots子对话框正态分布图和 正态性检验组间方差 齐性检验182 /?545183 /?545实例分析? 正态性检验实例分析&0.20定义分析变量? 方差齐性检验&0.05 定义分组变量184 /?545185 /?545差的 标准误部 内讲? 结论 ?方差齐性检验:F?=?0.072,P =?0.791,可以认为 两样本所在总体的方差齐 ?选第一行的t检验结果:t=2.576,P=0.017 ?α=0.05,拒绝H0,接受H1,可以认为克山病患 者血磷值与当地健康人的血磷值不同186 /?545义187 /?545实例分析实例分析31 SPSS在医学统计中的应用(2012)适用条件? 独立性:对结果的影响较大,但一般没问题? 正态性:有一定的耐受能力,可以通过直四、配对样本t检验方图等进行观察?应当分组考察? 方差齐性:相对而言对结论的影响较大,需要进行方差齐性检验188 /?545189 /?545统计理论复习? 配对设计的几种情况 ?观察处理/治疗前后某指标 ?观察身体对称或不同部位某指标 ?用两种方法观察某指标 ?将条件相同/相近的受试对象配成对,在对子内 部将两个受试对象随机分配到不同组进行观测 ? 统计学上的解决办法:求出每对的差值,统计理论复习? H0:两总体均值无差异,差值的均值μ0 =0 ? 构造统计量:同单样本均数t检验 ?d为差值的均数,S为差值的标准差 d ?0 t? S/ n ? 如果差值均数与0的差异有统计学意义,则通过检验该差值总体均数是否为0,得知两 种处理有无差异190 /?545认为两总体均数不同191 /?545? P38例3.2:EG0302.sav ?典型的个体自身对照配对设计 ?计算差值?Transform\&Compute?Variable?进行差值的正态性检验 ?配对t检验P=0.772&0.05,尚不能认为使用该药会影响病人的血红蛋白含量192 /?545 193 /?545内部讲32义&0.2分析实例分析实例 SPSS在医学统计中的应用(2012)分析实例? 练习:用某药治疗10名高血压患者,对每一病 人治疗前、后的舒张压 (mmHg)进行测量,问 该药有无降压作用?五、多样本单因素方 差分析194 /?545195 /?545基本分析原理? 方差分析基于变异分解的原理 ? 单因素方差分析中,整个样本的变异可以基本分析原理? 实际数据的变异分解?各治疗组内部的变异(组内变异)只反映个体看成由如下两个部分构成?总变异=随机变异+处理因素导致的变异 疗效的总变异 =?不同病人间的随机变异 +?不同治疗方 案导致的变异 ?处理因素导致的变异是要研究的对象,要证明差异(随机变异)的大小?各组均数的差异(组间变异)反映了个体差异的影响与可能存在的处理因素的影响之和 总变异=随机变异+处理因素导致的变异它是否大于0总变异=组内变异196 /?545+??????组间变异197 /?545? 统计量的含义 ?统计量 F=组间变异/组内变异? F=1:认为处理因素实际上无影响 ? F&&1:组间变异远大于组内变异,则处理因素有? 独立性 ?严格要求,但一般都没问题影响F?SS组间 / (k ? 1) MS组间 ? SS组内 / (n ? k ) MS组内组间均方差 组内均方差? 方差齐性?各组间样本含量相差不太大时,方差轻微不齐仅会对方差分析的结论有少许影响部都是稳健的?一般只要“最大方差/最小方差&3”,分析结果讲? 正态性 ?方差分析对于正态性的要求是稳健的198 /?545内义199 /?545基本分析原理适用条件33 SPSS在医学统计中的应用(2012)实例分析? P49例4.1:EG0401.sav ?对适用条件的检查?正态性SPSS操作? Analyze\&Compare?Means\&One\way?ANOVA?方差齐性基本可接受&0.05 各组间的NO不全相等200 /?545201 /?545两两比较? 多个均数间究竟是哪两个存在差异,则要两两比较检验水准 总的I类 错误概率不校正0.05 0.05校正0.05 0.05不校正 比较2次0.05 1-0.952=0.10校正0.05/2=0.025 1-0.比较1次进行两两比较(Multiple Comparisons) ? 关键问题:如何控制总的Ⅰ类错误的大小? 控制Ⅰ类错误所采用的方式和标准不同,从而衍生出不同的方法?LSD、SNK、Bonferroni、Tukey’s HSD……比较3次检验水准 总的I类 错误概率 0.05 1-0.953=0.14 0.05/3=0.017 1-0. 0.05比较4次0.05/4=0.013 1-0.1-0.954=0.19Bonferroni校正法202 /?545 203 /?545部 内讲204 /?545义两两比较方法两两比较方法SPSS 对 计 算 出 的P值进行校正, 因此可将P值直 接与0.05比较205 /?54534 SPSS在医学统计中的应用(2012)两两比较方法的选择? “LSD is not normally recommended when more than three两两比较方法的选择groups are being compared or when there are unequal variances or cell sizes.” ? “Although the LSD, SNK, and Duncan tests are in common use, few statistical authorities regard them as acceptable post hoc tests. ” ? “Tukey’s Honestly Significant Difference (HSD) test is one of the most common and desirable post hoc tests.” ? Dunnett’s test is designed for the case in which exactly one of the groups is compared to each of the others.Most?Conservative PreferableMost?Liberal206 /?545207 /?545练习? 将相同品质的24只雌性大鼠随机分入4组,分别给予一种避孕药,两周后测量大鼠的子宫质量来衡 量其雌激素水平,试比较4种避孕药对雌激素分泌 水平的影响A药 89.8 93.8 88.4 95.6 110.2 95.1 B药 84.4 84 116 88.5 68 89.2 C药 65.6 79.4 65.6 70.2 82 70.9 D药 88.4 90.2 83.2 87.7 85.6 86.3208 /?545第五节 多因素方差分析209 /?545? 方差分析术语 ? 随机区组方差分析 ? 析因设计方差分析 ? 协方差分析 ? 重复测量方差分析210 /?545部 内讲一、方差分析常用 术语义211 /?545主要内容35 SPSS在医学统计中的应用(2012)方差分析常用术语? 因素(Factor) ?因素是可能对因变量有影响的变量 ?一般来说,因素会有不止一个水平,而分析的 目的就是考察或比较各个水平对因变量的影响 是否相同 ? 水平(Level)?因素的不同取值等级称作水平,如性别有男、方差分析常用术语? 固定因素(Fixed?Factor)?在样本中因素所有可能的水平都出现了,从样本的分析结果中就可以得知所有水平的状况, 无需进行外推?绝大多数情况下,研究者所真正关心的因素都是固定因素?性别:只有两种 ?疗法:只有三种女两个水平212 /?545213 /?545方差分析常用术语? 随机因素(Random?Factor)?因素所有可能取值在样本中没有都出现,目前方差分析常用术语? 单元(Cell) ?也称试验单位(experimental?unit),指各因素 的水平之间的每种组合 ?例如,在研究性别(2水平)、血型(4水平) 对成年人身高的影响时,该设计最多可以有2*4 =8个单元在样本中的这些水平是从总体中随机抽样而来?例如,研究什么温度下催化剂的效果最好,样本中只取了30 、40 、50 三个水平?研究者希望得到一个能够泛化、即对所有可能出现的水平均适用的结果?在分析结果时是希望能外推到35、45 、……这些水平的情况214 /?545215 /?545? 协变量(Covariate)?对因变量可能有影响,需要在分析时对其作用? 交互作用(Interaction)?如果一个因素的效应大小在另一个因素不同水加以控制的连续型变量?可以简单的把因素和协变量分别理解为分类自平下明显不同,则称两因素间存在交互作用变量和连续型自变量?当模型中存在协变量时,一般是通过找出它与因变量的回归关系来控制其影响的?举例:研究大鼠体重增加量,因素为不同的饲216 /?545部 内料,进食量则是可能影响因变量的连续型变量讲217 /?545义36方差分析常用术语方差分析常用术语 SPSS在医学统计中的应用(2012)方差分析常用术语? 交互作用(Interaction)?当存在交互作用时,单纯研究某个因素的作用方差分析的适用条件? 理论上的适用条件?独立性:只有各样本为相互独立的随机样本时,是没有意义的,必须固定其它因素的水平来研 究该因素的作用大小?如果所有单元内都至多只有一个元素,则无法才能保证变异的可加性(可分解性)?正态性:所有观察值系从正态总体中抽样得出 ?方差齐:每个单元中的数据方差齐分析交互作用,如随机区组设计的方差分析218 /?545219 /?545方差分析的适用条件? 实际工作中的考虑 ?单因素方差分析――正态性和方差齐性一般都 需要进行检验 ?随机区组设计的方差分析――不考虑?模型中提供的信息不足以考察适用条件 ?严格讲应当在分析后考察残差是否正态分布二、随机区组方差 分析?析因设计的方差分析――重点考察单元间的方差齐性,是否存在极端值220 /?545221 /?545? 将受试对象按影响处理结果的非处理因素部 内222 /?545讲随机区组1.sav223 /?545(性别、年龄、病情、病程等)相同或相 近的原则配成区组,每个区组内的受试对 象随机分配到各处理组 ? 比完全随机设计的检验效能高义37随机区组设计分析实例 SPSS在医学统计中的应用(2012)分析实例? 因素及水平 ?药物,3个水平,固定因素 ?实验动物,10个水平,随机因素 ? 每个单元中只有一个元素,故无法考察交SPSS操作? General?Linear?Model/Univariate定制模型 多重比较互作用和方差齐性? 在单元内无重复数据的情况下,随机因素保存残差的分析结果同固定因素224 /?545225 /?545SPSS操作? 在模型中不包含交互项SPSS操作? 只在处理组间进行多重比较226 /?545227 /?545? 保存残差和预测? 药物因素、动物因素均有意义部 内讲228 /?545 229 /?545值,以便判断该 方差分析模型是 否应用正确义38SPSS操作结果 SPSS在医学统计中的应用(2012)结果? 做残差与预测值的散点图结果? 残差在0附近随机分布,该模型应用正确Y轴为残差 X轴为预测值230 /?545231 /?545练习? 研究三种饲料的增重效果。将断奶仔猪配成10个区组,每个区组3只仔猪,且同一区组的仔猪同窝 别、同性别、同日龄、体重最接近。在每个区组 内随机将3只仔猪分配到各实验组。比较喂养10天 后各实验组仔猪的平均体重增加量。三、析因设计方差 分析::随机区组2.sav?::232 /?545 233 /?545? 将全部实验因素的各水平进行排列组合,? 例:用3种降转氨酶药物,针对两种肝炎类在每个单元内进行重复实验 ? 可以分析因素之间的交互作用?如果一个因素的单独效应随另一因素水平的变型的患者进行试验,测得转氨酶的降低值。 试进行药物疗效的统计学分析 析因1.sav药物种类 med1 med2 med3化而变化,则称这两个因素间存在交互效应或 交互作用100 120 50讲肝炎类型 甲型 85 90 90 65 75 110 40 45 30 60 50 60部 内234 /?545义乙型 100 50 45235 /?545析因试验设计分析实例39 SPSS在医学统计中的应用(2012)分析实例? 因素及水平 ?药物,3个水平,固定因素 ?肝炎类型,2个水平,固定因素 ? 每个单元格中都有多个元素,可以考察交分析实例? 模型适应性检查 ?数据不存在极端值 ?方差齐性检验在Options中进行互作用? 模型适用性方面重点考察单元间的方差齐性,是否存在极端值236 /?545237 /?545SPSS操作SPSS操作? 绘制均数轮廓图238 /?545239 /?545?交互作用有统计学意义(P=0.001),此时对药物及肝炎类型的效应不能直接分析? 交互效应图示?药物之间差异的变部 内讲241 /?545化趋势随肝炎类型 的不同而不同240 /?545义40结果结果 SPSS在医学统计中的应用(2012)结果? 单独效应的分析?在存在交互效应的情况下,只能固定其他因素练习? 数据文件:析因2.sav家兔神经缝合后的轴突通过率(%) 缝合方法a 缝合后时间b 外膜缝合 1月 10 10 40 50 10 平均 24 2月 30 30 70 60 30 44 束膜缝合 1月 10 20 30 50 30 28 2月 50 50 70 60 30 52的水平,分析该因素各水平之间的差异有无统 计学意义 ?统计分析方法?为单元格编号后,借助单因素方差分析作组间的多重比较(将单元格编号作为分组因素) ?按某一因素拆分文件,对另一因素作多重比较242 /?545243 /?545协方差分析? 协方差分析的目的四、协方差分析?针对在实验设计阶段难以控制或者无法严格控制的影响因素,在统计分析阶段进行统计控制? 基本思想?比较多个均数前,用直线回归的方法找出各组结果变量与协变量之间的数量关系 ?求假定协变量取值相等时结果变量的修正均数 ?比较结果变量修正均数之间的差别244 /?545245 /?545? 例9.1??分析篮球运动员与该地大学生间的肺 EG0901.sav 活量有无差异 ? 将身高看成混杂因素 ? 首先确定身高是否为协变量,然后决定采原始均数差用协方差分析还是普通方差分析修正均数差246 /?545部 内讲247 /?545义41分析实例协方差分析图示 SPSS在医学统计中的应用(2012)协方差分析? 应用条件 ?协变量与因变量间存在线性关系 ?各组协变量与因变量的回归系数相等 ?各组间协变量的取值范围不宜相差过大 ? 应用条件的判断方法 ?作分组散点图,观察各组是否存在直线关系, 以及直线趋势是否相近 ?通过假设检验判断分组变量与协变量是否存在 交互作用,若交互作用无统计学意义表示回归 直线平行248 /?545应用条件判断? 散点图结果变量 混杂因素分组变量249 /?545应用条件判断? 两组的身高应用条件判断? 检验各组总体斜率是否相等与肺活量均 存在直线关 系,且直线 趋势相近协变量250 /?545251 /?545? 检验各组总体斜率是否相等强行纳入交互项部?交互作用无统计学意义,说明身高对肺活量的影响与分组无关,即两回归直线平行253 /?545252 /?545内讲义42应用条件判断应用条件判断 SPSS在医学统计中的应用(2012)协方差分析协方差分析在主对话框的Options对话框 中选中“Descriptive?statistics” 和“Displays?Means?for”注意:做协方差分析时, 不能将交互项纳入模型?身高对肺活量有影响(P=0.001),运动员和大学生的肺活量的差异无统计学意义 (P=0.202)254 /?545 255 /?545协方差分析练习? 为研究三种饲料对增加大鼠体重的影响,按随机区组设计将初始体重相近的36只大鼠分成12个区 组,再将每个区组的3只大鼠随机分入3个饲料组, 记录3组大鼠的实际进食量及体重增加量。问扣除 进食量因素的影响后,三种饲料对增加大鼠体重 有无差别EG0902.sav五、重复测量方差 分析256 /?545257 /?545? 重复测量资料 ? 对同一受试对象的某项观测指标进行不同时间点的多 次测量所得数据 ? 重复测量数据关于方差分析的前提条件 ? 独立性:不同时间点的数据间存在相关性,违背了独 立性要求,因此不能用一般的方差分析 ? 方差齐性:通过检验判断数据是否满足方差矩阵的球 对称结构,不满足(即方差不齐)时需要校正 ? 正态性:样本量不太小时,略偏离正态的方差分析的 结果较稳健? 例:不同时间观察SGPT的变化258 /?545部 内讲259 /?545义SGPT.sav重复测量设计分析实例143 SPSS在医学统计中的应用(2012)SPSS操作? Analyze-& General Linear Model-& Repeated Measures给时间因素起名SPSS操作重复观测次数 单击后再单击Define均数轮廓图时间点间的 多重比较260 /?545261 /?545结果结果?多变量方差分析 ?不满足球形分布时的一种方差分析方法,一般不 采用 ?Pillai’s Trace的结果较为稳健?球形分布检验(用于判断数据是否方差齐) ?若P&0.05,则满足球形分布,重复测量数据的方差 分析结果无需校正 ?否则需利用ε(Epsilon)系数对自由度进行校正 ?P=0.006&0.05,不满足球对称条件262 /?545263 /?545264 /?545部?组内因素的方差分析结果 ?Sphericity Assumed:球形分布假设成立时的结果 ?其余:不满足球形分布时的校正结果,一般选 Greenhouse\Geisser结果,并参考Huynh的结果 ?组内(时间)因素: P&0.001,不同治疗时间后 SGPT不同?重复测量间变化趋势的模型分析 ?最佳的拟合曲线为二次曲线(考虑P值和模型的简 单性) ?此结果只能起辅助作用,还应通过均数图进行观察讲内义265 /?545结果结果44 SPSS在医学统计中的应用(2012)结果分析实例2?例K+.sav治疗前与治疗后4周、治疗后1 周与2周的差异无统计学意义266 /?545 267 /?545SPSS操作? 数据格式SPSS操作? Analyze-& General Linear Model-& Repeated Measures268 /?545269 /?545?多变量方差分析 ?不满足球形分布时的一种方差分析方法,一般不 采用部 内讲270 /?545义271 /?545SPSS操作结果45 SPSS在医学统计中的应用(2012)结果结果?球形分布检验(用于判断数据是否方差齐) ?P=0.065&0.05,满足球对称条件?组内因素的方差分析结果 ?处理因素与时间因素之间有交互作用(P&0.001) ?存在交互作用时,无法直接得出时间因素的主效 应,需要检验时间因素的单独效应(即每种处理 下时间因素的效应)272 /?545 273 /?545结果结果?不同处理条件下家兔血浆中K+含量随时间变化的趋势不同274 /?545?组间因素的方差分析结果 ?存在交互作用时,无法直接得出处理因素的主效应, 需要检验处理因素的单独效应(即每个时间点下处 理因素的效应)275 /?545? 检验处理因素的单独效应――每个时间点的? 检验处理因素的单独效应――每个时间点的单因素方差分析单因素方差分析276 /?545部 内讲277 /?545义46重复测量数据的分析重复测量数据的分析 SPSS在医学统计中的应用(2012)重复测量数据的分析? 检验时间因素的单独效应――每个组内的重重复测量数据的分析? 球形检验复测量方差分析?首先按分组变量拆分数据文件,然后进行重复测量方差分析?平原组数据不满足球形检验,P&0.001 ?其他组满足球形检验无组间因素278 /?545279 /?545重复测量数据的分析? 组内因素分析&0.05练习? 练习1:根据下表资料分析处理因素及测量时间对家兔血清胆固醇浓度的影响家兔血清胆固醇浓度(mg%)的自然对数家兔号 处理组 实验前 4.8 4.0073 : 5周后 5.663 5.5 : 10周后 6.271 5.4 : 家兔号 8 9 10 : 对照组 实验前 4.4 4.2485 : 5周后 4.1 4.6025 : 10周后 4.9 4.2485 :&0.051 2 3&0.05:重复测量1.sav280 /?545 281 /?545? 练习2六、方差分析应用辨析重复测量2.sav282 /?545部 内讲283 /?545义47练习 SPSS在医学统计中的应用(2012)辨析1? 13人份高胆固醇结石,每份3枚,3枚结石辨析2? 研究长期格列本脲治疗对正常与糖尿病大在外形、重量上相近;分别采用超声助溶、 灌注助溶、静置对照三种方法溶石,比较 不同方法的溶石时间? 采用t检验,超声组与灌注组比较,有显著鼠心肌SUR1、SUR2和kir6.2的影响。将大 鼠随机分为4组,测定结果如下。经t检验, 与非糖尿病组比较,*P =0.039,#P =0.045性差异(P&0.05),与静置组比较,有非 常显著性差异(P&0.001)? 结论:超声可以促进非钙化石的溶解,溶石时间明显缩短辨析1.sav284 /?545 285 /?545辨析3? 观察某药物对动脉粥样硬化的影响 ? 采用高胆固醇饲料喂养20只大鼠,随机分辨析3? 统计方法:各组第30天的血清胆固醇值与为对照组和实验组,每组10只;实验组于 高胆固醇饲料喂养7天后开始添加某药物。 两组于喂养前和喂养后第30天和第60天测 血清胆固醇辨析3.sav286 /?545喂养前进行配对t检验,第60天的血清胆固 醇值与喂养前进行配对t检验 ? 结果:对照组喂养第30天血清胆固醇水平 较喂养前有显著增高,P&0.01,第60天时 升高的更明显,P&0.01。实验组喂养第30 天、第60天血清胆固醇较喂养前无显著差 异P&0.05 ? 结论:某药具有降低血清胆固醇的作用287 /?545? 非参数检验基础? 多个独立样本的非参数检验 ? 随机区组资料的非参数检验部 内讲289 /?545第六节 非参数统计分析? 配对样本的非参数检验? 两个独立样本的非参数检验288 /?545义48主要内容 SPSS在医学统计中的应用(2012)非参数检验与参数检验? 参数统计方法:如t检验和方差分析 ? 特点 ?假定随机样本来自某种已知分布的总体 ?对总体分布的参数可以估计或检验290 /?545291 /?545非参数检验与参数检验? 问题:比较男女红细胞数的差别 ? 参数检验步骤: ?建立无效假设 H0 ?计算统计量t=…… ?若P&0.05,…… ?若P&0.05,…… ?下结论 ? 通过比较均数回答两总体是否相同的问题292 /?545参数检验的条件? 观测值互相独立 ? 两样本对应的总体服从正态分布 ? 两样本方差齐 ? 当条件不满足时 ?方差不齐:t’检验 ?非正态:变量变换、非参数法293 /?545?当数据满足参数法条件时,效能低于参数法 ?数据不满足参数法条件时,处于“优势”294 /?545部 内讲? 问题 ?总体分布不确定 ?分布呈非正态且无适当数据转换方法 ?数据不能或没有精确测量,如等级资料? 对参数的分布没有什么要求? 不对均数等参数进行检验,而是检验分布是否相同 ? 效能可能比较低义295 /?545非参数检验的必要性非参数检验法49 SPSS在医学统计中的应用(2012)非参数检验的特点? 优点 ?具有较好的稳健性 ?受限条件少:对数据要求不像参数检验严格 ?适用范围广:不受总体分布限定 ? 缺点 ?检验效能低于参数检验 ?犯第二类错误的可能性加大非参数检验预备知识? 顺序统计量:非参数检验的理论基础 ?对数据从小到大排序,由数据的大小排序号代 替原始数据进行统计分析 ? 秩(rank) :排序号在统计学上称为秩 ? 结(tie):绝对数值相等的数据称为结,又称同秩,此时取平均秩次296 /?545297 /?545SPSS的非参数检验过程二、配对样本非参数 检验298 /?545299 /?545? Wilcoxon符号秩检验:最常用,用于定量300 /?545部 内讲或等级资料 ? McNemar检验:只适用于两分类资料,特别 适合于自身对照设计 ? Marginal Homogeneity:McNemar检验在多 分类情况下的扩展? 例6.1:差值的分布呈正态分布? EG0601.sav ? 原理 ?计算差值 ?对绝对值求秩 ?求正秩和及负秩和 ?假设检验义301 /?545配对样本比较的非参数检验Wilcoxon符号秩和检验50 SPSS在医学统计中的应用(2012)分析实例分析实例? 结果 ?P=0.674&0.05 ?精确概率P=0.742,当P在0.05附近时,精确 概率尤为重要计算精 确概率302 /?545303 /?545Mann-Whitney U检验? 比较两个总体分布的中心位置是否相同 ?如两个样本来自相同的总体,则两组数据应相 间出现 ?如来自不同的总体,则会出现一组数据分布比 另一组数据高或低的趋势304 /?545305 /?545? 例:比较铅作业和非铅作业工人血液中的铅含量有无差别? 校正结后,精确概率铅作业.sav?铅作业组:9.5, 6.5, 11.5, 12, 16, 13, 14, 14.2, 15+ ?非铅作业组:5.5, 6.5, 8.5, 7.5, 9, 11, 13.2, 10.1, 8.4? 分析 ?15+,出现末端未知值,宜采用非参数检验306 /?545部 内讲307 /?545P=0.053&0.05,不能认 为铅作业和非铅作业工 人的血铅含量存在差异 ? 由于P值在0.05附近, 所以下结论要谨慎义51分析实例分析实例 SPSS在医学统计中的应用(2012)检验方法四、多个独立样本的 非参数检验? Kruskal-Wallis H检验 ?所有数据排序后,分组求秩和 ?利用各组样本例数及秩和计算统计量H ?当各组数据存在结时,计算校正的Hc值 ? Median中位数检验:统计效能较低 ? Jonckheere-Terpstra检验 ?用于有序分类数据时统计效能高于Kruskal\ Wallis?H检验308 /?545 309 /?545多个样本间的两两比较? 尚无直接的多重比较方法 ? 解决办法 ?直接进行两组间的非参数检验,并调整检验水 准α――Bonferroni校正 ?各组例数较多时,编秩后进行方差分析――秩 变换分析方法分析实例? 例6.4: EG0604.sav ? Analyze/Nonparametric?Tests/K?Independent?Samples310 /?545311 /?545? 多重比较 ?检验水准校正为α’=0.05/3,P&α’时有统计学意 义? 秩变换分析方法(样本例数较多时使用) ?编秩:Transform\&Rank?Cases指定要比较 的两个组?对新生成的秩变量进行方差分析(注意检验条部件是否满足)讲要编秩 的变量312 /?545内义313 /?545分析实例52 SPSS在医学统计中的应用(2012)实例? 例:将24只小鼠按窝窝别 1 2 3 4 5 6 7 8 饲料A 饲料B 1.00 1.01 1.13 1.14 1.70 2.01 2.23 2.63 0.96 1.23 1.54 1.96 2.94 3.68 5.59 6.96 饲料C 2.07 3.72 4.50 4.90 6.00 6.84 8.23 10.33五、随机区组资料的 非参数检验别不同分为8个区组, 每个区组内的小鼠随 机分配到3个不同饲 料组,喂养一段时间 后测量小鼠肝脏中的 铁含量,比较不同饲 料下小鼠肝脏中铁含 量的差异小鼠.sav314 /?545315 /?545参数检验? 尝试做随机区组方差分析 ? 通过残差图可知不满足随机区组方差分析非参数检验? Friedman检验:最常用 ?也称为Friedman双向评秩方差分析 ?区组内进行编秩,再对处理组内的区组秩求和, 然后比较处理组的位置是否相同 ? 数据的组织格式:宽型数据的条件316 /?545317 /?545? Analyze/Nonparametric?Tests/K\Related?Samples? 比较两种药物治疗支气管哮喘各40例的临床效果。数据如下,试作统计分析。? 多重比较 ?...?/2\Related?Samples ?Bonferroni校正318 /?545部 内讲319 /?545义53分析实例练习 SPSS在医学统计中的应用(2012)主要内容? 卡方检验基础第七节 定性资料的假设检验? 样本率与总体率的比较 ? 样本率或构成比的比较 ? 配对分类资料的假设检验320 /?545321 /?545数据类型 连续变量 分类变量 统计分析参数估计 点估计 区间估计 假设检验 χ2检验 ┇一、卡方检验基础统计描述率 相对比 构成比322 /?545323 /?545? 以χ2分布为基础的一种假设检验方法,用于? 观察值与期望值(expected?value)治疗方法 化疗 化疗加药物 合计 有效 28 32 52 48 80 无效 12 8 8 12 20 合计 40 60 100推断两个分类变量是否相关联或相互独立? 根据样本推断总体的分布与期望分布有无?两样本合计有效率80%,依此比例,化疗组治疗有效的人数应是40*80%=32,此值即为期望 值324 /?545部 内讲差别 ? H0:观察频数与期望频数无差别义325 /?545χ2检验基础χ2检验基础54 SPSS在医学统计中的应用(2012)χ2检验基础? χ2的计算?2 ? ?? A ? E ?2E?A:观察值,为实际的频数数据 ?E:期望值,在无效假设成立的前提下计算出的二、样本率/构成比与 总体率/构成比的比较频数 ?χ2表示观察值与期望值之间的偏离程度326 /?545327 /?545样本与总体的比较? 用来检验分类变量各水平所占百分比是否Chi-Square过程? 例:在北京某社区随机调查血型分布,结和期望的比例有统计学差异,如?在人群中随机抽取样本,分析四种血型所占的比例是否相同(都是25%) ?新生儿的性别比是否为1:1果A、B、AB、O型血的人数分别为35、60、 19、48。大量抽样的结果是北京全市人口 的血型分布为27:32:12:29,问该社区人群 血型分布是否与全市的不同?? SPSS中按人数加权社区血型.sav? Analyze\&Nonparametric?Tests\&Chi\Square328 /?545329 /?545330 /?545部 内? P&0.05,不能认为该社区……讲三、样本率或构成比 的比较义331 /?545Chi-Square过程55 SPSS在医学统计中的应用(2012)实例分析(一)? 两个样本率的比较――四格表实例分析(一)? 两个样本率的比较――四格表 ?数据文件的建立治疗方法 化疗1 化疗加药物2 有效1 37 48观察指标,列变量 无效2 13 2?因素, 行变量频数, 加权变量?另一种表述:两组各50人分别用化疗和化疗加药?Data\&Weight?Cases ?Analyze\&Descriptive\&Crosstabs333 /?545物治疗方法,有效率为74%和96%,试分析两种 疗法的有效率是否存在差异332 /?545实例分析(一)实例分析(一)334 /?545335 /?545336 /?545部 内讲? 阅读四格表的检验结果 ?当N≥40、最小期望值T≥5时,Pearson卡方检验。 若P近似等于α,读精确概率 ?当N≥40、1≤T&5时,连续校正的卡方检验 ?其他情况,不能用卡方检验,用Fisher’s精确概 率法直接获得P值? 本例结论 ?Pearson?χ2=9.49,P=0.002 ?按α=0.05的水平,拒绝H0 ?可以认为两种治疗方法疗效有差别,由数据分 析可知,药物加化疗治疗的效果好于单纯化疗义337 /?545实例分析(一)实例分析(一)56 SPSS在医学统计中的应用(2012)实例分析(二)? 多个样本率或构成比的比较 ?例:比较不同食管癌分期CAM\1的表达率食管癌.sav实例分析(二)338 /?545339 /?545实例分析(二)实例分析(二)? 多个样本率或构成比的多重比较 ?直接进行只有两组(两行)的卡方检验,并校 正检验水准 ?SPSS:将不参加比较的组号值设置为缺失值期望值小于5的格点超过20%, 应采用Fisher精确概率检验340 /?545341 /?545部 内讲342 /?545四、配对分类资料的 假设检验? 同一样本接受不同处理? 配对的两个受试对象分别给予两种处理义检测方法.sav343 /?545配对设计资料57 SPSS在医学统计中的应用(2012)假设检验金标准实例分析(三)? SPSS操作b d n a c? 结果是否一致――计算Kappa系数Kappa ? Pa ? Pe a?d a?b a?c c?d b?d , Pa ? , Pe ? ? ? ? 1 ? Pe n n n n n? 阳性率有无差异――McNemar卡方检验?2 ??b ? c ?2b?c344 /?545 345 /?545实例分析(三)? 结果 ?McNemar卡方检验?P=0.039&0.05,两种方Chi-Square Tests Value McNemar Test N of Valid Cases 75 Exact Sig. (2-sided) .039a配对卡方检验与一致性检验新方法 阳性 阴性 病理 合计 阳性 阴性880 4 884 6 110 116合计886 114 1000配对卡方检验 P=0.754, Kappa=0.951 配对卡方检验 P=0.002, Kappa=0.951 配对卡方检验 P=0.657, Kappa=0.050法的阳性率存在差异?一致性检验Measure of Agreement N of Valid Cases Kappa新方法 阳性 阴性 病理 阳性 阴性880 0 880 10 110 120合计890 110 1000Symmetric Measures Value .761 75 Asymp. a Std. Error .073合计Approx. T 6.710bApprox. Sig. .000新方法 阳性 阴性 病理 合计 阳性 阴性480 200 680 210 110 320合计690 310 1000?Kappa=0.761&0.6,两种方法检出结果的一致性较好346 /?545347 /?545? 两位放射科医生对一批矽肺胸片独自做出? 分析三种药物的疗效是否不同药物种类 A B C 合计 疗效: 治愈 10 4 1 15 患者例数 显效 好转 21 27 9 23 25 35 55 85 无效 9 12 2 23了矽肺分级诊断,试分析二者的诊断结果医生乙的诊断结果 Ⅰ级 医生 甲的 诊断 结果 Ⅰ级 Ⅱ级 Ⅲ级 合计 32 1 0 33 Ⅱ级 15 54 7 76 Ⅲ级 0 12 45 57 合计 47 67 52 166348 /?545部 内讲349 /?545义合计 67 48 63 178练习辨析158 SPSS在医学统计中的应用(2012)辨析2? 各年龄组冠状动脉硬化程度是否存在差异 ? 年龄与冠状动脉硬化程度是否相关辨析3? 比较3种患者与健康人群的阳性率有无差别1. 若看成一个4×2列联表进行一次χ2检验,能否达到分析目的? 2. 若将每种患者与健康人群的检查结果分别组成四格表,进行三 次χ2检验,对否? 3. 怎样达到分析目的?350 /?545 351 /?545列联表资料的假设检验类型 独立设计四格表 配对设计四格表 结果无序的R×C表 结果有序的R×C表 双向有序且属性不同的R×C表 双向有序且属性相同的R×C表 可选用的统计方法 Pearson卡方检验/?校正卡方检验 /Fisher精确概率法 McNemar卡方检验;一致性检验 Pearson卡方检验/?Fisher精确概率法 秩和检验 秩和检验;秩相关分析 一致性检验第八节 直线相关与回归352 /?545 353 /?545? 相关分析是研究事物或现象之间有无关系以及关系的方向和密切程度的分析方法? 回归分析是研究事物或现象之间数量依存? 直线回归分析 ?一元线性回归 ?多元线性回归354 /?545部 内讲355 /?545关系的分析方法? 相关分析 ?Pearson相关分析 ?秩相关分析 ?偏相关分析义59相关与回归相关与回归 SPSS在医学统计中的应用(2012)相关分析一、Pearson相关 分析356 /?545357 /?545相关分析? 直线相关:研究两个变量是否存在直线相相关系数的计算? |r|的取值范围:[0,?1] ?0.15\0.24,相关性非常低 very?low ?0.25\0.49,相关性低 low ?0.50\0.69,相关性一般 moderate ?0.70\0.89,相关性高 high ?0.90\1.00,相关性非常高 very?high关关系,以及关系的密切程度 ? 正相关、负相关、完全相关? 相关系数:表示相关的密切程度与相关方向的指标,又称Pearson相关系数、积差相 关系数r ???Y ? Y ? 2 ? ?X ? X ? ? ?Y ? Y ?2? ?X ? X358 /?545359 /?545? 样本相关系数r是总体相关系数ρ的估计值,? 适用于线性相关的情形,对于曲线相关等需进行假设检验H0:ρ=?0 H1:ρ≠ 0复杂情形,积差相关系数的大小并不能代 表相关性的强弱v ? n?2r ?0 r tr ? ? Sr 1? r 2 n?2响极大,必要时可以对其进行剔除或者进 行变量变换 ? 相应的变量呈双变量正态分布(较宽松)360 /?545部?并非简单的要求x和y各自服从正态分布讲? 样本中存在的极端值对积差相关系数的影内义361 /?545相关系数的假设检验相关系数的应用条件60 SPSS在医学统计中的应用(2012)相关系数的应用条件非线性分析实例? 例7.1?????????EG0701.sav ? 分析过程 ?散点图 ?计算相关系数 ?对相关系数作假设 检验极端值362 /?545363 /?545SPSS操作? Analyze\&Correlate\&Bivariate二、秩相关分析?血硒和发硒的相关系数为0.880(&0.9,相关性高),P&0.001,有统计学意义364 /?545 365 /?545? 应用场合:不服从双变量正态分布;分布未? 对前例求Spearman等级相关系数? 基本思想:将两变量分别从小到大编秩,对秩次进行相关分析366 /?545部 内讲367 /?545知;等级资料 ? Spearman等级相关用rs表示两变量相关关系 的密切程度及相关方向义61秩相关(Rank Correlation)分析实例 SPSS在医学统计中的应用(2012)秩相关(Rank Correlation)三、偏相关分析?血硒和发硒的秩相关系数为0.919,P&0.001,有统计学意义368 /?545369 /?545偏相关分析? 控制其它变量影响的情况下,分析两个变SPSS操作? Analyze?\& Correlate?\&?Partial量之间的关系,从而揭示两变量之间的真 实联系 ? 例:分析车价和油耗之间的关系 汽车.sav?汽车的自重可影响每加仑汽油可行驶公里数 ?汽车的价格可能与汽车的自重有关370 /?545371 /?545? 所有变量的相关方阵?控制了汽车自重(混杂因素)的影响后汽车价格和每加仑汽油可行驶公里数的相关系数 r=\0.068,P=0.567,无统计学意义,即汽车价 格和每加仑汽油可行驶公里数无相关性372 /?545部 内讲373 /?545义62结果结果 SPSS在医学统计中的应用(2012)练习? 随机测定18名学生的智力值,并记录当年数学语文两科总成绩。试分析数学成绩与 语文成绩之间的相关性成绩.sav四、一元线性回归374 /?545375 /?545线性回归模型简介? 研究一个连续型变量(因变量)的取值随线性回归模型简介? 回归分析假定自变量对因变量的影响强度其它变量(自变量)的数值变化而变化的 趋势? 通过回归方程解释两变量之间的关系更为是始终保持不变的 ? 对于因变量的预测值可以被分解成两部分?常量(constant):x取值为零时y的平均估计量,精确,可以计算出自变量改变一个单位时 因变量平均改变的单位数量? 除了描述两变量的关系以外,通过回归方可以被看成是一个基线水平?回归部分:它刻画因变量y的取值中,由其与自程还可以进行预测和控制376 /?545变量x的线性关系所决定的部分,即可以由x直 接估计的部分377 /?545? y ? a ? bx? ?:y的估计值,表示给定自变量的取值时,? 估计值和实测值之间的差称为残差ei378 /?545部 内y的平均值 ? a:常数项,表示自变量取值均为0时因变 量的平均值,即回归直线在y轴上的截距 ? b:回归系数,在多变量回归中也称偏回归 系数,表示自变量改变一个单位时, y的平 均改变量,即回归直线的斜率? 残差表示除自变量x以外的其它所有未进入yi ? a ? bxi ? ei讲该模型的因素引起的因变量y的变异,即不 能由x直接估计的部分 ? 一般假定ei服从正态分布 ? ei ? yi ? yi ? yi ? a ? bxi义379 /?545线性回归模型简介线性回归模型简介63 SPSS在医学统计中的应用(2012)线性回归模型简介? 应用条件 ?线性趋势:通过散点图来加以判断 ?独立性:观察个体之间相互独立 ?正态性:y服从正态分布 ?方差齐性:不同x对应的y的方差相等?若只是探讨关系,不预测,后两个条件可适当放宽线性回归的分析步骤? 做出散点图,观察变量间的趋势? 考察数据的分布,进行必要的预处理 ? 进行直线回归分析?样本量:希望分析的自变量个数的10~20倍380 /?545381 /?545线性回归的分析步骤? 回归模型应用条件的判断――残差分析 ?残差间是否独立 ?残差分布是否为正态(图形或统计量) ?残差是否方差齐e 0理想状态SPSS操作? 例7.1?????????EG0701.sav ? 对数据的初步分析――散点图血硒和发硒含量有明 显的线性趋势,也没 有发现强影响点? Ye 0? Y非线性e 0? Y方差不齐? 强影响点的诊断382 /?545 383 /?545? 强影响点的识别――标准化残差?大于2的记录可能为?大于3的记录肯定为强影响点384 /?545部 内讲385 /?545强影响点义64SPSS操作SPSS操作 SPSS在医学统计中的应用(2012)SPSS操作标准化残差结果及解释标准化预测值? 回归方程为 发硒值=39.5+3.24*血硒值残差直方图和PP图386 /?545387 /?545结果及解释? 回归模型的假设检验 ?F=34.156,P&0.001,说明至少有一个自变量的 回归系数不为0,回归模型有统计学意义结果及解释? 回归模型摘要 ?决定系数R2=0.774,发硒的变化中77.4%可以由 回归方程解释 ?校正的决定系数=0.751,消除自变量个数的影 响,用于决定系数的比较388 /?545389 /?545? 残差服从正态分布? 残差的方差相等 ?ei的大小没有随预测值的改变而有趋势的改变390 /?545部 内讲391 /?545义65残差分析与模型适用条件判断残差分析与模型适用条件判断 SPSS在医学统计中的应用(2012)残差分析与模型适用条件判断? 强影响点的诊断 ?数据中没有标化残差大于2的记录,故结果中没 有给出强影响点的信息小结? 相关系数r表示两变量间的直线相关程度,取值\1~+1 ? 相关分析方法的选择?一般只涉及直线相关关系,理论上讲还可以进行变量间的曲线相关分析?如果希望扣除其他变量的影响,可以进行偏相关分析?如果变量不满足线性相关分析的条件,可以进行秩相关分析392 /?545 393 /?545小结? 根据分析目的选择变量及统计方法?直线相关用于说明两变量之间直线关系的方向小结? 用残差图考察数据是否符合模型假设条件 ?因变量与自变量关系为线性 ?残差服从均数为0的正态分布 ?残差的方差相等 ?各观测独立和密切程度,X与Y没有主次之分?直线回归用于定量刻画因变量Y对自变量X在数值上的依存关系,根据专业要求确定因变量和 自变量394 /?545395 /?545? 结果的解释及正确应用?反映两变量关系密切程度或数量上影响大小的?直线回归用于预测时,其适用范围不应超出样本中自变量的取值范围396 /?545部 内讲397 /?545统计量应该是回归系数或相关系数的绝对值, 而不是P值五、多元线性回归义66小结 SPSS在医学统计中的应用(2012)多元线性回归模型? yi ? yi ? ei ? b0 ? b1 xi1 ? ... ? bm xim ? ei? yi 为实测值,由两部分组成 ? ?给定各自变量取值后因变量y的估计值 yi ?实测值与估计值之差ei (残差) ? 因变量y的总变异可分解为两部分 ?回归平方和:因变量总变异中由m个自变量所 能解释的部分 ?残差平方和:因变量总变异中不能由m个自变 量解释的部分398 /?545多元线性回归模型? yi ? yi ? ei ? b0 ? b1 xi1 ? ... ? bm xim ? ei? b0 为常数项,表示所有自变量取值为0时因变量的估计值,又称为截距 ? b j 为偏回归系数,表示其他自变量取值固定 时,自变量x j改变一个单位时 yi的变化量 ? ? 采用最小二乘法(Least?Square)建立多元 线性回归方程399 /?545多元线性回归模型? 最小二乘法17 15 13 11 9 7 5 50 60 70 80 90 100◆原始值Y ●回归值多元线性回归模型? 不仅要对整个回归方程进行假设检验,还? 使 ? (Y ? Y ) 2 最小需对每个自变量的作用即偏回归系数作假 设检验 ? 回归方程的假设检验?H0:各总体偏回归系数均为0 ?H1:各总体偏回归系数不全为0? Y残差400 /?545 401 /?545? 因变量为连续变量 ? 因变量与自变量之间存在线性关系 ? 残差服从正态分布 ? 残差的大小不随所有自变量取值水平的改? 例:测量30名怀疑患有动脉硬化的患者的变而改变,即残差满足方差齐性402 /?545部 内讲载脂蛋白A、B、E、C及低密度和高密度脂 蛋白中的胆固醇含量。试求低密度脂蛋白 中的胆固醇含量对载脂蛋白A、B、E、C的 线性回归方程 载脂蛋白.sav义403 /?545多元线性回归模型的应用条件分析实例67 SPSS在医学统计中的应用(2012)散点图分析SPSS操作? Analyze\&Regression\&Linear此处先不涉及 变量筛选问题404 /?545405 /?545结果? 对模型的假设检验 ?F=8.09,P&0.001,至少有一个自变量的偏回归 系数不为0结果? 对自变量的假设检验 ?载脂蛋白B和C的偏回归系数有意义(P&0.05) ?载脂蛋白A和E的偏回归系数无意义(P&0.05)406 /?545407 /?545408 /?545部的候选变量 ?尝试建立多自变量模型,可手动,也可利用自 动筛选方法,使用后者时要谨慎 ?多自变量和单自变量模型结果相矛盾时,以前 者为准 ?结果不符合专业知识时,尽量寻找原因409 /?545内讲? 标准化偏回归系数 ?用于比较各自变量相对作用的大小 ?载脂蛋白B的标化偏回归系数最大,对低密度 载脂蛋白中胆固醇含量的影响最大? 哪些自变量应该引入模型,哪些自变量不应该引入模型 ? 较稳妥的方式?建立多个一元回归模型,筛掉那些显然无关联义68结果多自变量的筛选策略 SPSS在医学统计中的应用(2012)逐步回归方法? Enter ?所有自变量均进入模型,不筛选 ? Forward,前进法 ?按P值从小到大将自变量逐一引入模型 ? Backward,后退法 ?按P值从大到小将自变量逐一从模型中剔除 ? Stepwise,逐步法 ?将自变量逐一引入模型的同时将无意义的自变 量从模型中剔除410 /?545逐步回归方法? 前进法、后退法和逐步法的侧重点不同?当自变量间不存在简单相关时,三种方法结果一致?当自变量间存在一定的简单相关时 ?前进法:向模型中引入单独作用较强的自变量 ?后退法:向模型中引入联合作用较强的自变量 ?逐步法:介于二者之间? 自变量引入/剔除的标准默认为0.05和0.10411 /?545实例分析结果? 自变量引入/剔除过程?第一步,引入载脂蛋白B ?第二步,引入载脂蛋白C412 /?545413 /?545? 自变量的系数? 对上述模型进行诊断 ?第10条记录的标化残差&\3,强影响点?残差图 ?Y=41.84+1.25*载脂蛋白B\2.34*载脂蛋白C ?载脂蛋白B的贡献大于载脂蛋白C(0.676&0.485)414 /?545部 内讲415 /?545义69结果结果 SPSS在医学统计中的应用(2012)练习? 建立高密度脂蛋白中的胆固醇含量对载脂蛋白A、B、E、C的线性回归方程,并对模 型进行诊断载脂蛋白.sav第九节 Logistic回归416 /?545417 /?545Logistic回归简介? 线性回归的要求 ?因变量为连续型变量 ?自变量与因变量具有线性关系 ? 当因变量为分类变量时宜用Logistic回归,Logistic回归简介? Logistic回归分析的目的 ?校正混杂因素?例:主要目的是研究吸烟与性别的关系,但已知年特别当因变量为二值变量时?如研究患冠心病与年龄、性别、心电图是否异龄可能对吸烟与性别的关系有影响,则将年龄代入 Logistic回归对其影响作用进行校正?筛选、确定影响因素?例:在吸烟者年龄、婚姻状况、职业、受教育程度常的关系等多个因素中筛选戒烟行为的影响因素?预测发生概率 ?根据横断面或队列资料建立的Logistic回归方程可用 于预测418 /?545 419 /?545? 优势(Odds)a ?男性患冠心病的概率 p男 ? ,不患冠心病的 a?b b p 概率 ? 1 ? p男 ? , 男 (1 ? p男 )称为男性患冠心 a?b a Odds男 ? ? 1.81 病比不患冠心病的优势, b c ?女性患冠心病的概率 p女 ? ,不患冠心病的 c?d d p 概率? 1 ? p女 ? ,女 (1 ? p女 ) 称为女性患冠心 c?d c 病比不患冠心病的优势,Odds女 ? ? 0.57 d420 /?545? 优势比(Odds?Ratio,OR) ?男性患冠心病比不患冠心病的优势与女性患冠 心病比不患冠心病的优势之比称为优势比,OR ? p女 (1 ? p女 )?其含义是以女性为参照类,男性患冠心病的优势是参照类患冠心病优势的3.17倍部 内讲? 3.17p男 (1 ? p男 )义421 /?545Logistic回归中的重要概念Logistic回归中的重要概念70 SPSS在医学统计中的应用(2012)Logistic回归中的重要概念? 概率与OR值 ?若p男=p女,则Odds男=Odds女,OR=1 ?若p男&p女,则Odds男&Odds女,OR&1 ?若p男&p女,则Odds男&Odds女,OR&1Logistic回归中的重要概念? 概率P的logit变换? 记 logit ( P ) ? lnP ? ln ?Odds ? 1? P? logit(P)的取值范围是±∞,且是概率P的单调增函数?假设logit(P)是自变量X的线性函数,即logit ( P ) ? ? 0 ? ?1 x1 ? ... ? ? m xmP?422 /?545exp( ? 0 ? ?1 x1 ? ... ? ? m x ) 1 ? exp( ? 0 ? ?1 x1 ? ... ? ? m x )二分类Logistic回归模型423 /?545Logistic回归模型对系数的解释logit ( P ) ? ? 0 ? ?1 x1 ? ... ? ? m xm假设x1表示性别,x1 ? 1表示女,x1 ? 2表示男 则其他因素保持不变时:logit ( P男 ) ? ? 0 ? ?1 ? 2 ? ? 2 x2 ? ... ? ? m xm logit ( P女 ) ? ? 0 ? ?1 ? 1 ? ? 2 x2 ? ... ? ? m xm 则 logit ( P男 ) ? logit ( P女 ) ? ?1 ? ln P男 1 ? P男 ? ln P女 1 ? P女 ? ?1? 函数的取值范围为0~1,与概率相对应 ? 曲线的形状易于描述影响因素对事件进展即 ?1 ? ln ORx e ?1 ? ORx11的影响? P ? ln ? 男 ?1 ? P男P女 ? ? ? ?1 1 ? P女 ?推广到一般: ? i ? ln ORx ,exp( ? i ) ? ORxii424 /?545425 /?545? βi表示当其他自变量取值保持不变时,xi取 值改变一个单位时的ln OR,OR ? exp( ? i ) ? β0是常数项,表示自变量取值全为0时,整? Wald检验 ?计算系数β的标准误,基于正态分布原理求出P 值和参数的置信区间?基于卡方分布,比较包含和不包含某个自变量?自变量取值全为0被称为基线水平,不一定具有实际意义,可以认为β0反映了基线水平时两个模型的对数似然函数值之差logit ( P) ? ? 0 ? ?1 x1 ? ... ? ? m xm? 比分检验(Score?Test)426 /?545部设检验?基于卡方分布,计算比分检验统计量并进行假427 /?545内讲个事件的ln Odds? 似然比(Likelihood?Ratio,LR)检验义71对系数的解释对系数的假设检验 SPSS在医学统计中的应用(2012)对系数的假设检验? 似然比检验是基于整个模型的拟合情况进模型应用的注意事项? 足够的样本量?严格要求:二分类结果中例数较少的一类结果行的,结果最为可靠 ? 比分检验结果一般与似然比检验一致 ? Wald检验没有考虑各因素的综合作用,结 果不太可靠?在筛选变量时,用Wald法应慎重 ?因为参数的置信区间也是基于该检验算得的,的例数至少是自变量个数的10倍?一般要求:总例数是自变量个数的10~20倍? 独立性 ? 线性假设成立 ? 当对象的观察时间明显不同时,可采用生故以95%置信区间来筛选变量也应慎重存分析428 /?545 429 /?545单变量Logistic回归示例? 例:研究患冠心病是否与性别(0=女、1= 冠心病.sav 男)有关单变量Logistic回归示例? Analyze\&Regression\&Binary?Logistic430 /?545431 /?545? 对回

我要回帖

更多关于 估算样本方差 的文章

 

随机推荐