化学里面for consistencyy是指什么

24小时热门版块排行榜&&&&
【有奖交流】积极回复本帖子,参与交流,就有机会分得作者 dkstatsra 的 5 个金币
(初入文坛)
在线: 5.6小时
虫号: 2632458
Consistency failure #1 in Separa. 的L301错误是怎么回事?
Sample Text
输入文件如下
%nprocshared=8
# opt freq ub3lyp/6-31+g(d,p) scrf=(iefpcm,solvent=water)
geom=connectivity&&
Title Card Required
C& && && && && && &0.& & 0.& & 0.
C& && && && && && &0.& & 1.& &-0.
C& && && && && &&&-0.& & 1.& & 1.
C& && && && && &&&-0.& & 2.& &-1.
H& && && && && && &1.& & 1.& &-1.
S& && && && && && &1.& &-0.& & 0.
C& && && && && &&&-1.& & 2.& & 1.
H& && && && && &&&-0.& & 0.& & 2.
C& && && && && &&&-1.& & 3.& &-0.
H& && && && && && &0.& & 3.& &-1.
O& && && && && && &3.& & 0.& & 1.
O& && && && && && &2.& &-1.& &-0.
H& && && && && &&&-1.& & 2.& & 1.
N& && && && && &&&-1.& & 4.& &-0.
H& && && && && &&&-1.& & 4.& &-1.
H& && && && && &&&-2.& & 4.& & 0.
N& && && && && &&&-1.& &-2.& &-0.
C& && && && && &&&-2.& &-2.& &-0.
H& && && && && &&&-1.& &-2.& &-1.
C& && && && && &&&-3.& &-1.& &-1.
N& && && && && &&&-3.& &-2.& & 0.
C& && && && && &&&-4.& &-0.& &-1.
H& && && && && &&&-2.& &-1.& &-2.
C& && && && && &&&-4.& &-1.& & 1.
C& && && && && &&&-5.& &-0.& & 0.
H& && && && && &&&-5.& &-0.& &-2.
H& && && && && &&&-5.& &-1.& & 2.
H& && && && && &&&-6.& &-0.& & 0.
Cu& && && && && &&&4.& &-0.& &-0.
1 2 1.5 3 1.5 6 1.0
2 4 1.5 5 1.0
3 7 1.5 8 1.0
4 9 1.5 10 1.0
6 11 1.0 12 1.5
7 9 1.5 13 1.0
14 15 1.0 16 1.0
17 18 1.5 19 1.0
18 20 1.5 21 1.5
20 22 1.5 23 1.0
22 25 1.5 26 1.0
24 25 1.5 27 1.0
输出文件尾:
------------------------------------------------------------------------------
Polarizable Continuum Model (PCM)
=================================
Model& && && && && & : PCM.
Atomic radii& && && &: UFF (Universal Force Field).
Polarization charges : Total charges.
Charge compensation&&: None.
Solution method& && &: Matrix inversion.
Cavity type& && && & : Scaled VdW (van der Waals Surface) (Alpha=1.100).
Cavity algorithm& &&&: GePol (No added spheres)
& && && && && && && && &Default sphere list used, NSphG=& &29.
& && && && && && && && &Lebedev-Laikov grids with approx.&&5.0 points / Ang**2.
& && && && && && && && &Smoothing algorithm: Karplus/York (Gamma=1.0000).
& && && && && && && && &Polarization charges: spherical gaussians, with
& && && && && && && && && && && && && && && & point-specific exponents (IZeta= 3).
& && && && && && && && &Self-potential: point-specific (ISelfS= 7).
& && && && && && && && &Self-field& & : sphere-specific E.n sum rule (ISelfD= 2).
1st derivatives& && &: Analytical E(r).r(x)/FMM algorithm (CHGder, D1EAlg=3).
& && && && && && && && &Cavity 1st derivative terms included.
Solvent& && && && &&&: Water, Eps=&&78.355300 Eps(inf)=& &1.777849
------------------------------------------------------------------------------
Consistency failure #1 in Separa.
Error termination via Lnk1e in /home/ntrip/soft//g09/l301.exe at Fri Sep 13 11:06:25 2013.
Job cpu time:&&0 days&&9 hours 10 minutes 55.0 seconds.
File lengths (MBytes):&&RWF=& & 332 Int=& && &0 D2E=& && &0 Chk=& &&&18 Scr=& && &1
谁能解答下,万分感谢!!
& 猜你喜欢
已经有18人回复
已经有35人回复
已经有21人回复
已经有16人回复
已经有5人回复
已经有4人回复
已经有4人回复
已经有56人回复
已经有32人回复
已经有40人回复
& 抢金币啦!回帖就可以得到:
相关版块跳转
第一性原理
我要订阅楼主
的主题更新
小木虫,学术科研互动社区,为中国学术科研免费提供动力
违规贴举报删除请联系客服电话: 邮箱:(全天候) 或者 QQ:
广告投放与宣传请联系 李想 QQ:
QQ:&&邮箱:
Copyright & 2001-, All Rights Reserved. 小木虫 版权所有当前位置: >>
化学教育测量与评价教案
化学教育测量与评价第一章第一节 现代教育测评的意义 第二节 教育测评的类型、功能 第三节 化学教育测评研究 第二章第一节 信度 第二节 效度 第三节 难度 第四节 区分度 第三章第一节 化学教育目标 第二节 命题计划的设计 第三节 各种类型项目的编制 第四节 各种水平项目的编制 第五节 测验设计 第四章第一节 化学教育评价方案设计的内容 第三节 教育评价表的构成及编制 第四节 取样设计 第五章第一节 测验分数的处理 第二节 几个统计量数 第三节 以常模参照评价学生的测验成绩第四节 以标准参照评价学生的测验成绩 第二节 制定评价表的意义、原则第一章 化学教育测量与评价概述 第一节 现代教育测量与评价的意义 一、 教育测量与评价的产生和发展简介1、教育测量与评价的产生 教育测量和评价的产生与对学生学力和学业成就的检测活动的发展有着紧 密的联系, 其历史源远流长。 早在我国的西周时期, 就初步建立了学校教育制度, 开始了教育测评。到公元606 年(隋炀帝大业二年),创行开科取士(进士科), 便产生了我国最早的考试制度――科举制。国外学者也认为,中国古代的科举考 试是教育测评的最初萌芽【提问并讨论关于科举制度你了解多少?】但是由于种 种原因,本世纪以来,我国的教育测量和评价的研究一直未能发展起来;而在西 方,其中主要是在美国,自19 世纪后半叶以来,教育测量和评价得到了迅速的 发展。 教育测评和火药等相似, 似乎中国古代文明有这样特点:最初的萌芽和产生 皆出自我国,但其真正的发展、完善,直至发挥作用,却并不在我国,而是经由 西方文明的改造再传至我国, 就像我们现在提供了初产品、 原料, 经西方的加工、 制作、设计,制成成品再转售于我们,不知这是不是我们的悲哀?引申:火药、 指南针、钟表的产生和发展过程。 科举制源于西汉察举,形成于隋唐,经宋元明时代的发展演化,至清代虽在 方法上已经甚是完备, 但从内容体制等方面看却严重阻碍了社会前进。现今世界 各国的文官考试度,盖出于中国科举。 【侯光文,教育评价概论,12页】1 【附: 1)科举制的形成 隋统一后,隋炀帝大业二年(606)开设了进士科为新的常科科目,开辟了 庶民跻身政界的渠道, 科举制始见雏形。 唐初因隋末连年战争, 人才匮乏, 于621 年下诏回复明经、 秀才、 俊士、 进士等科的考试, 第二年又规定士人可以 “自举” , 国家社科公开招考。由此形成了我国古代教育评价的基本形式――科举制度。 科举制可以自由报考,按照考试成绩高低定取舍,对世卿世禄、依门第举官 进行了否定。这在当时是独一无二的,就是在千年后传入西方仍不乏先进性。 2)严格的考试管理 唐代设有常科和特科考试,以常科为主。 主考官:吏部六品以上(考功员外郎) ,后来因为官品低,改为正四品上的 礼部侍郎。评价考试礼部负责,铨选任命归吏部负责。常科考试分两步:一是预 选性的考试,称为“解送试” 。通过后方可参加第二步的全国性正式考试,即“省 试”“解送试”在地方和学校中进行,一般在秋季,士子称为“乡贡”“省试” 。 。 由尚书省下设的吏部(后改为礼部主持) ,省试由此得名。 特科是常科试的补充,由皇帝特诏举行的,也称制举考试,制举及第,可不 经吏部试直接叙任。 3)考试方法 贴经――填空题; 问义(口义、墨义)――简答题;策问――论述、详答 发挥题;诗赋:推动了唐诗的发展 创立糊名法 4)考试科目 进士科:杂文诗赋所占分量较重,该科备受重视。因为升官发迹的机会高, 唐七代皇帝中取进士197人,有98人任宰相,占50%;而这期间宰相一共为133人, 进进士出身者高达74%。 加之曲江会及雁塔题名。 (其中有娄师德、 张九龄、 韩愈、 白居易等,落第者称为反动力量,如黄巢) 明经科――考试内容:儒家经学 童子科――10岁以下,后改为11-12岁以下。 宋代在唐代两级考试的基础上, 增加了省试后的殿试, 科举演进为三级考试。 明朝时科举程序分为四级:学校考选、乡试、会试、殿试。 八股文取士产生于明代, 有深刻的社会根源。其与朱元璋的双重人格不无关 系。一方面效法古人求贤,另一方面又对士子千方百计禁锢其思想,极尽打击迫 害。于是明初出现了文字狱,设“厂卫”充当其耳目(硬)――此治标,又兴八 股文(软)――此治本,实现其文化专政。 八股文由破题、承题、起讲、入题、起股、中股、后股、束股和大结组成。 其中“起股、中股、后股、束股”四部分为文章正文,每部分又分为对偶的两股, 共八股,此为八股文之由来。 八股文的题目都是四书五经的原句。文章的观点全部依据程朱学派的注解, 且必须是以圣贤的口气写作,文章程式又完全固定,所以舒服了知识分子思想、 消磨意志,扼杀其才华,是封建帝王最为得力的工具。 至光绪三十一年(1905年)科举制被迫取消,历时1300年。对美、英、日的 公务员录用考试产生了很大影响。 5)科举制的优点:旅行家马可波罗把科举制重点介绍。用英文出2 版的有关明清政治制度的书籍有70多种,都详细介绍了科举考试。伏尔泰、孟德 斯鸠均对中国科举高度关注、赞赏。孙中山《五权宪法?民权初步》中“现在各 国的考试制度,差不多都是学英国的。究流溯源,英国的考试制度,原来是从我 们中国学过去的。 ”科举制在评价方法上有很多优点:如,考试的组织、管理、 评分中的合理部分被保留,且沿用至今。当传到欧美后,与其客家文化交融,对 19世纪以来的西方教育与心理测量,对20世纪40年代教育评价的理论与方法,产 生了重要影响。 缺点:内容过于狭窄陈腐,唯奉儒家经义,所以儒学之外皆非学问,对国外 科技嗤之以鼻,致使闭关锁国,妄自尊大,最终挡不住列强的火药。 】 18世纪后,英、法、美等许多发达国家才开始学用中国的考试方法。19 世 纪上半叶以前, 学校考试一般都缺乏标准和应有的客观性,其基本方法是对学生 逐个口试。随着学生人数的增多,这种考试很难继续实施了。1845 年,美国波 士顿文法学校首先引入了书面考试。 但这时学生成绩评定的客观标准问题仍然未 能得到解决。 1864 年,英国教师费舍尔( GeorgeFisher)收集了许多学生的 成绩样本,编制了第一本《量表集》,作为度量学生成绩的标准; 1897 年,美 国的莱斯(J.M.Rice)博士发表了他对20 个学校的16000 名学生所作的拼字测 验的结果;1905 年,第一个智力测验量表――法国的《比纳-西蒙量表》发表。 1916 年,美国斯坦福大学心理学教授特曼(L.M.Terman)发表了对比纳量表进 行修订后的更完善的智力测验量表―― 《斯坦福量表》 首次引入了智商的概念, , 使智力测量有了比较科学的计算方法,标志着心理测验已达到了比较成熟的阶 段。 1904 年,美国心理学家桑代克(R.L.Thorndike)发表了《心理和社会测量 学导论》,介绍了心理统计方法和编制测验的基本原理; 1909 年,桑代克又编 写了用于书法、拼字、作文、图画测验的标准测量工具,使教育测量开始走上了 科学化的道路。因此,桑代克被称为教育测量学的鼻祖。1918年以后,教育测量 的使用范围逐渐从小学发展到中等以上学校, 许多大学也开始设立了教育测量学 课程。至本世纪20 年代末,教育测量已发展到全盛期,教育测量在学力检测与 教育成就的定量化、客观化、标准化方面取得了很大的成绩。 教育评价的产生: 随着教育测量运动的发展, 其弱点也逐步暴露出来。由于当时的测验都是围 绕着教科书编制的, 测验内容只要求学生记忆教材的知识内容,未能包括对学生 的社会态度、兴趣、情感的检查,不能反映学生的全面发展和实际需要,因而它 很快引起了人们的不满和批判。1929 年,美国经历了一场严重的经济危机,教 育的社会效果问题越来越多地受到人们的关注, 这就直接推动了以教育的社会价 值为依据的教育评价活动的发展。从1934 年始到1942 年止,美国俄亥俄州立大 学教授泰勒(R.W.Tyler)受卡内基基金会的资助,进行了历时8 年的课程与评 价研究,这就是教育评价发展史上著名的“八年研究”。在对以往的课程和测验 设计进行了尖锐批评的基础上, 泰勒提出了一套以教育目标为核心的课程和测验 编制原则,试图以此把社会的要求、学生的需要反映在课程与测验中。为了把这 一思想与早期的测量区别开来, 泰勒和他的同事正式提出了教育评价的概念: 在 “ 本质上, 评价过程乃是一种测量课程和教学方案在多大程度上达到了教育目标的 过程”;即认为教育评价就是衡量教育活动达到教育目标程度的一种活动,测量3 是它的手段。根据泰勒的理论进行的评价活动能够获得关于目标完成情况的信 息,有助于发现存在的问题,改进教育工作。所以,这一理论受到了较为广泛的 欢迎。 附:桑代克简介【施良方,学习论】 2. 教育测量与评价的发展 泰勒等人的教育测量和评价观点以及相应的“目标评价模式”是教育测评历 史上第一个比较完整的、影响较大的理论。自30 年代以来的几十年中,这一理 论一直占据着主导地位。 为了发展泰勒评价模式的实施技术,美国教育心理学家 布卢姆(B.S. Bloom)等人提出了教育目标分类学理论,对完善教育评价理论起 了重要作用。 但随着测评实践和理论研究的发展,这一理论也逐渐暴露出一些根 本性的缺陷。 泰勒理论的核心是目标,但由于教育目标概念与教育结果的概念紧 密相关,这就容易使人们将更多的注意力集中到对教育结果的评价上。因此,泰 勒评价更多地被看作是一种对结果的总结性评价;然而,形成性评价可能有着更 重要的作用。此外,人们还认识到,目标本身的合理性也需要评价,对那些预期 目标以外的教育效果也不能排除在评价之外。 在泰勒的努力下,评价一词取代了考试和测验。 二、 对现代教育测量与评价概念的认识 从历史看, 先是对学生学力和学业成就的评定需要, 导致了教育测量的产生, 初期的教育测量逐步发展为标准化测量,提高了测量的科学性和客观性;又随着 社会对全面发展的学生的需要, 教育测量开始走向了教育评价,并从只注重结果 的总结性评价,逐步发展为同时注重改进教育过程的形成性评价。 我们认为,现代教育测量与评价是在对教育目标、教育过程、教育结果(现 实的或潜在的) 以及影响教育的各种因素做出量或质的记述的基础上进行的一种 价值判断活动。 教育系统中的一切因素都是测评的对象;教育测量就是对评价对 象的现状、属性与规律做出客观的、定性或定量的描述,这种描述的结果是对测 评对象的某些属性分配数值; 教育评价就是在教育测量的基础上,对评价对象做 出价值判断。 教育评估:在高教领域多提此,在督导部门也称作督导评估,而在普通教育 领域多称为教育评价。评估有估价的涵义,较模糊粗略,而评价相对是较准确的 价值判断; 评估多用于对群体或单位的状态及效果的估价,而评价则既有对群体 和单位的价值判断,又有对个人的判断。 1、测量(measurement) 【张敏强,教育测量学,17;黄光扬,教育测量与评价, 2-5】 1)测量的涵义 用一定规则给事物属性指派数字或符号的过程,即为测量。如,测物体的长 度、 重量等属性, 先制成量具尺子、 磅秤等, 再利用量具将事物属性表示成数字。 这个定义包含三个元素: 其一,事物及其属性:这是测量的对象或目标。对教育和心理测量而言,所 测的是个体的外显行为或外在表现特征,如数学和语文成绩。但它们真正感兴趣 的是隐含于所测得的外显行为之中的个体潜在特质水平,如数学思维能力。所以 教育与心理测量中的事物属性即指个体的心理特质,它是间接测量的结果。4 其二,法则:法则是测量所依据的规则和方法,是测量的关键。法则的好差 取决于它是否符合客观事物属性的规律以及是否易于制定和便于操作。 人类的心 理特质抽象易变,法则不易制定。 其三,数字或符号:数字是代表某一事物或事物某一属性的量。 测量,实际上是一种比较过程,是通过将被测物体与参照物进行比较,从而 对被测物体赋值, 以说明物体的某种属性的过程。可以把被测物体与参照物放在 一起直接比较,也可以通过标准物而进行间接比较。 物理测量一般是间接比较,如,测量一张桌子的长度可以用米尺来完成,米 尺的作用就是: A、它确定了桌子的长度这种属性。 B、尺上的刻度提供了一种“标准物”――以米为单位的标准长度。 第一种作用表明,米尺可以作为一种测量工具;第二种作用表明,米尺可以 作为一种测量尺度。 2)测量的要素 其一, 必须依据某些科学原理和法则,发展出合适的量具或制定出科学的测 量方案。 其二,必须有意义相对明确的测量单位。(有确定意义;有相同的价值,即 同一单位点间差别相等)。 其三, 用数字对事物在量上的规定性予以确定,就需要有一个测量或计算的 起点,即参照点。如相对零点是人为确定的。绝对零点是以绝对零为起点。如重 量、长度等,绝对零点表示测量起点在内容上丝毫不存在一点量,有时绝对零点 不易确定或在计算时繁琐, 此时就共同约定一个零点作为测量的起点,即相对零 点。如0℃,使用相对零点得到的结果不存在倍数关系。 2、教育(学)测量(educational messurement) 1)涵义:教育测量是对学生知识的增长、能力的发展、兴趣爱好、思想品德以 及教育措施上的许多问题按照一定的法则的数量化测定。 或,主要是利用测量原理对教育领域内的事物或现象给予数量化的描述。 或者说, 教学测量, 就是应用一定的测量工具, 收集各种和教学有关的信息、 资料,为教学评价提供依据。 教学测量比物理测量复杂得多,但二者从本质上看,却有相同的原理。教学 中最常用的测验或考试就是一种测量工具;测验的分数,如60分,就是教师人为 确定的测量尺度。 教学测量的过程就是用一群标准刺激物――测验试题――去激 发学生的反应――回答测验试题的状况,对反应的质量用数字表示――评分。 2)教育测量的几个要素: 对象:人 属性:人的精神方面的某种特性(如:回答化学问题的多少、学习能力的大 小等) 准则:我们常编制一些试题,让学生回答根据学生能正确回答的数量给定数 字。试题就是测量的准则。 数字:可以是1、2、3-,也可以是A、B、C,还可以是甲、乙、丙等一系列有 序的符号5 3)教学测量的特点: A、测量尺度具有较大程度的不确定性。 教学测量的测量尺度一般是无形的、抽象的,不像物理测量尺度那样,容易 客观地确定和把握。在教学测量中,对同一对象的测量,不同的测量者使用的尺 度往往不一致, 甚至同一测量者在对同一对象在不同时刻的测量中所使用的尺度 也可能不一致。这种不确定性,相对而言难以控制,因为它一般存在于测量者的 头脑中,很难进行可靠性检验。 B、间接性、推断性。 不能直接测量学生内在的掌握知识和能力发展的水平, 而仅能通过测量学生 有关的外在行为表现而达到我们的测量目的。类似于用温度计测量物体的温度, 是通过水银柱的高度变化间接地推断物体的温度。不过,学生的外在行为表现和 其内在发展水平的关系,要比水银柱的高度变化和温度间的关系复杂得多。 C、测量的代表性。 在测定一定对象时, 一般只需要测定该事物本质的代表性方面即可。不可能 测量全部外部表现,而且也没有必要。但是,在教学测量中,要确定那些说明教 学目标到达状况的代表性属性,要比确定代表桌子长度的属性要困难得多。例, 在进行关于智能发展水平的测量时, 首先要抽象出对智能发展来说的最基本要素 (如,理解、分析、综合等),其次,要就所抽象出的各要素,具体给出相应的 作业或问题来进行测量, 抽象出的要素是有代表性的;给出的作业或问题也必须 是有代表性的。 而这种有代表性的要素和问题的确定和设计,正是教学测量的研 究重点之一。 D、测量单位的近似性。 作为物理测量的单位必须具备两个条件:一是意义确定,二是单位等值。而 教学测量中的单位却只能近似地满足这两个条件。教学测量中“1分”的概念不 可能像“1克”那样意义明确;“80分和90分之间的差异”也不能等同于“50分 和60分之间的差异”。 但教育测量是可行的: 美国心理学家桑代克(E.L.Thoendike,)认为:凡物之存在必有 数量。 美国的测量学家麦柯尔(W.A.Mocall)提出:凡有数量的东西都可以测量。 数量表示出事物性质的差异。 事实说明人的精神特性是可以测量的。例如:学生做题的数量不同,就是学 习水平的差异。现行有智商的测定等。 量表(scale)或量尺:指的是确定了测量单位和参照点并具有取值系统的 测量工具。试卷就是教育测量的量表。心理学家史蒂文斯依据测量的精确程度, 把量表分为(由低至高): 量表是测验和参照标准的总称。 要测定实验能力。必须制备一套量表。如:能认识烧杯、试管、铁架台----3 分,凭观察区别高锰酸钾溶液和三氯化铁溶液―5分 A、命名量表(nominal scale):利用数的区分性,也叫类别量表、称名量表、 名义量表、分类量表,是最低水平的一种量表,用来对事物或人的心理现象进行6 分类。如学生性别:男、女;答案:对、错;中学:省重点、市重点、区重点、 一般中学等。这种量表只对被测对象作定性描述。该量表中即使有数字,也只是 表示区分性,数字不能作大小比较或运算,但可以进行次数统计。如学号、学生 证号等。这里涉及的数字有两种含义:一个是用数字表示每一个研究个体,如学 号等;另一个是用数字代表事物的类别,如性别。 这种量表没有序列性、等距性、可加性等。 B、顺序量表(ordinal scale):利用数的有序性,也叫等级量表、位次量表。 顺序量表是用以反映事物的相对关系(顺序关系)的数值来表示的量表,它既没 有相等单位,也没有绝对零点。对该量表的数值可以按照次序进行统计,但不能 进行加减运算。顺序量表比命名量表精确,不仅将事物及属性分类,而且还依据 统一标准将之分为若干等级或进行顺序排列。 利用数的有序性。 如借助一份纸卷, 可以将学生成绩做出合格、不合格,或优、良、中、差四等的区分。甲、乙、丙、 丁? 这种量表无等距性和可加性,不能进行加减乘除运算。 C、等距量表(interval scale):利用数的等距性,比顺序量表高一级,不但 能表示事物量的大小,而且具有相同的测量单位,单位间距离是确定的。该量表 所得数字具备了区分性和序列性,同时又具备等距性和可加性。可以进行加减和 乘以常数的运算。该量表的零点是相对的,即人为确定的相对零点,所以不能将 其数据直接乘除,以倍数来解释。如常见的温度,各种能力分数、智商等。 D、比率量表(ratio scale):利用数对于代数运算的封闭性。是最高水平的量 表,也是一种理想的量表。有相等单位和绝对零点,可以进行加减乘除运算。所 以不仅可以比差距,还可以计算比例,以倍数来解释。很多物理测量属于此类。 如长度、重量、身高、体重、时间等,教育心理测量很难达到这种程度。教学中 的标准分?? 教育和心理测验一般是在等级(顺序)量表上进行的,因为,它一没有绝对 零点,二没有相等单位。即使一个学生数学考0分,也不能说该被试的数学知识 和能力为0.同时因为题目难度的差异, 获得20分与获得40分的差异不同于60分与 80分的差异。所以,教育测验只能指出学生的等级、名次。 由于等距量表适合于大量的统计分析方法, 所以教育心理学家们总是试图将 教育测验的结果放在等距量表背景下去解释。 常用的方法是把原始分数转换成标 准分数(等距量表)。 模糊量表: 用模糊数量的方法描述那些存在着亦此亦彼的中间过渡状态的事 实,用以反映事物处于某种状态的程度。如描述一位教师的教学态度。 3、评价(evaluation,assessment )【李雁冰,课程评价概论,2】 美国教育评价标准联合委员会(Joint Cominittee on Standards for Educational Evalution)1981年给评价下的定义:对某一对象(方案、设计或 内容)的价值或优点所做的系统探查。(有优点的未必有价值) 4、教育评价(educational evalution):根据一定的标准,运用科学可行的 方法, 对教育的要素、 过程和效果进行价值评判的活动 【侯光文, 教育评价概论, 55】 5、相关概念的区别7 1)教育测量与教育评价: 从句法上讲,测量是按照一定的法则和程序,对事物或现象在量上的规定性 加以确定和描述的过程。 教育测量是针对教育效果或针对学生各方面的发展予以 测量和描述的过程, 旨在获得有一定说服力的数量事实,是一种以量化为主要特 征的事实判断。 教育评价是依据一定的标准,对教育事物或现象的价值进行系统 的调查,在获取足够多的资料事实(定性与定量)的基础上,做出价值分析和价 值判断。 所以教育评价的最根本特征是价值判断,而教育测量在给出数量事实的 描述与判断之后,不一定都要做出价值判断。从此意义上说,教育测量是教育评 价的基础,教育评价是教育测量的延续,是对测量结果的解释与应用。 当把评价一词用于课堂教学情境时:一些情况下,它与测量同义;另一些情 况下,它与测验同义。如,教师进行一次成就测验时,可以说测验学生的成绩, 也可以说在评价学生的成绩,或者在测验学生的成绩。但在一些情况下,评价指 不依赖于测量的各种评价方法,是一集合名词,此时“评价”是对学生行为的定 性描述, 如对学生行为轶事的记录, 测量是对学生行为的定量描述, 如测验分数。 另王汉澜语:测量的数量化结果,如不依测量的目的进行分析、解释、评价,就 是无意义的东西,所以测量包含有一定的评价。事实上,一些标准化的教育测量 过程,经分数转化、解释,就是对测量结果的有意义的价值判断。高考(教育测 量)也隐含价值判断标准。“高分=优秀的考生=高素质”,所以,教育测量与教 育评价在某些情况下是一致的。 2)教育评价与教育评估 A、英语词源不同,educational evaluation,educational assessment B、教育评价与教育评估的著作者都把学科起源追溯到“八年研究”及泰勒, 既然源出一处,必有相通之处。 C、考究“评估”一词,含有“评判、评量、估测、估算”之意,所以包括 对事物的质量、价值、程度、数值等进行估测判断。教育评估可能有价值判断, 也可能没有。 当它有时, 它和教育评价一样, 当它没有时, 它和教育评价则不同。 如, 教育评估的重点是对教育现象在数量上做出测量或估算,此时教育评估就与 教育测量同义。 D、从概念及习惯用语上讲,美国国家评估委员会主任迪肯说,评估就是由 一个组织或机构对这所学校或学科是否符合某一事先确定的质量标准做出鉴定 的过程。所以把教育评估用于产量评估、资产评估、房地产评估、实验室建设评 估、学校办学水平评估、课堂教学水平评估、人的心理评估等,较符合评估一词 的本义。 3)测验与考试 测验 (test) 实质上是行为样本的客观的和标准化的测量。 , 包含三个因素: 其一, 行为样本, 一般, 测验不可能涵盖某一行为领域中所有可能行为表现。 如医生只抽取病人的几毫升血液来检验其血液特点一样,测验只选取一组有代 表性的行为来考查个体在相应行为领域的行为特征。 其二,标准化,标准化是指测验在编制、实施、计分及分数解释方面依据一 套系统的程序。 其三, 客观测量的评价指标, 测验客观性的几个评价指标是: 题目质量分析, 如难度、区分度;信度(可靠性);效度(有效性) 考试(examination):与测验相比,测验的范围比考试广,如心理测验,各8 种常识测验、 时事小测验等, 而考试一般指用于比较正式场合下的测验, 如高考、 中考、自考等。可交换时:学年测验又可以说学年考试;不可以交换时:高考不 能说高测,心理测验不能说心理考试。测验的目标一经确定,测验的内容一般变 化在一定的范围,且测验可以经过相当一段时间的使用,逐步达到标准化过程, 而考试则目的性较强,会受时间、地点等影响,且考试的标准化较难达到。 GRE(Graduate Record Examination) 三、 教育测量与评价的学科地位和作用(黄光扬,21) 1、 教育测量与评价是现代教育科研的三大领域之一 在教育科学体系中有许多学科分支(它们研究对象明确、研究内容独立、研 究成果完整):课程论、教学论、教育心理学、教育史、比较教育、教育统计、 教育测量学、教育评价、教育管理、教育经济、教育科研方法、教育社会学、教 育哲学、教育生态学、教育技术等。而教育测量与评价则可以看成是教育测量与 评价内容的整合并侧重于教育测量的一门综合性教育课程, 又可以看成是一个兼 容了教育统计、教育测量、心理测量、教育评价、教育评估、教育督导,甚至教 育科研方法在内的学科群。现在许多发达国家,教育基本理论研究、教育测评研 究、教育发展理论研究已经成为现代教育科研的三大领域。 以美国为例: 1)创办了大量有关教育测评的研究杂志,如,《教育测量研究》、《教育 测量评论》、《评价研究》、《教育评价与政策分析》、《教育评价新趋势》、 《教育评价技术》、《评价信息》等。对教育测验、教育测量模型、教育评价、 元评价的研究十分活跃。 2)出版了大量有关的著作和教科书,如《教育测量》、《心理测量》、《教 育评价》、《教育目标分类学》等。 3)许多学术团体都加盟了对教育评价的研究,成立了全国性的教育评价协 会,如全国教育测量委员会、全国教育进展评估中心、全国教育评价联合会等, 有组织地开展教育测评方面的协作研究活动。其中,规模最大的是由12个全国性 的专业组织于1981年成立的美国教育评价联合委员会。 国际上最具影响的是 “国际教育评估协会” International Association for ( Educational Assessment,简称IAEA)以及“国际教育成就评价协会” (International Association for the Evaluation of Educational Achievement,简称IEA)。 IAEA:1975年瑞士日内瓦成立,当时18个国家加入,20世纪80年代其完成两 个重要项目:《教师用的评价指南》、《熟练能力的国际测验》。 IEA:1962年成立,我国是1984年加入的。详见简介材料 huangP24 2、 教育测量与评价在教育改革中具有重要的作用 1)教育测量与评价在教育系统中的作用 教育本身是一个系统。所谓系统,指的是具有一定目的、有输入和输出的、 且具有反馈功能的有秩序的整体结构。 当我们根据教育目标和计划, 把教育方案、课程、教学等因素(输入条件) 作用于学生身上后,需参照教育目标和计划,对教育效果(输出)及其输入条件 的妥当性予以测量评估、价值分析和判断。然后,把这一测量与评价过程所获得 的信息反馈给教育者、 学习者以及有关教育决策者, 以便改进教育的策略与方案,9 更有效地达到教育目的。 2)教育改革常常以教育测量与评价作为突破口。如英国、澳大利亚 学校教育考试制度和评价制度是教育制度的一个组成部分, 但教育考试和教 育评价具有很强的导向功能。俗话说,考试是根指挥棒,就是这个意思。 考试评价制度改革不仅作为教育改革的一项重要内容, 而且有时还作为教育 改革甚至政治体制改革或政治运动的突破口。 3、 教育改革呼唤教育测量与评价更加科学化 教育目标的多样性, 必然要求教育测量与评价方法、 手段的多样化和科学化. 教育目标的多样性, 必然要求教育测量与评价方法、手段的多样化和科学化. 全 面推进素质教育和新一轮基础教育课程改革呼唤教育测量与评价科学化。 4、 教育测量与评价是教师的专业素养和能力 1)正确评价学生的发展是教师职业能力的重要组成部分。 教育测量与评价对于教师来说是必不可少的。 在教书育人过程中,教师需 要作出一系列决策和判断,需要对学生的性向、能力、成就、态度、兴趣、潜能 及发展等进行较全面的了解, 这就需要采用教育测量与评价多种方法,以弥补教 师非正式观察之不足。 现代教育测量与评价的思想方法对于教师创造性地教学、因材施教、提高教 学质量具有重要的作用。 教育测量与评价的知识是教师必备的专业知识修养。评 价学生的能力是教师职业能力的重要组成部分。在教育教学过程中,科学运用教 育测量与评价的有关技术方法,是所有成功教学的基础。 2)国外教师普遍开设“教育测量与评价”这类课程。 经济发达国家的教师至少要学习10门左右的教育理论课程。 德国:师范生课程由通识学科、教育学科、执教学科、教育实践四块组成, 分别占30%、20%、35%、15%。且随着对教师专业化、职业化要求的不断提高,教 育学科所占比重至少要达到三分之一学分。 美国培养教师的课程计划: 通识教育、 学科专业教育、 教育教学理论与实践, 各占三分之一学分。德国、美国都把“评价学生的进步、了解与分析学社个性” 等能力列入教师的培养目标中。 英国:向来重视考试、评价,20世纪80年代实施国家课程,包括四个方面: 一是科目(3门核心,7门基础);二是成绩目标(分为十个层次);三是教学大 纲,四是评定计划安排。在7、11、14、16岁四个关键阶段进行统一测验和学业 评定, 教师要综合校外统考和校内多方面的成绩记录,对学生的发展写出书面评 定报告。总之,英国把学业评定作为国家课程的一个组成部分,充分体现了教育 测量与评价的重要性,以及教师掌握它的必要性。 中国: 20世纪30年代所有师范生都学习教育统计与测验, 改革开放后, 教育、 心理系等少数专业恢复这类课程,与国外相比,我国师范教育课程结构中不仅教 育理论课程的比重小,而且除了教育、心理系外,绝大多数的师范生没有学习教 育统计、教育测量与评价课程,这不符合国际师范教育的趋势,也不利于教师知 识结构的优化。 第二节 教育测量与评价的类型和功能(黄光扬,34)10 一、 教育测评的主要类型 (一) 按照测评在教学中运用的时机 1、形成性测评 2、诊断性测评(多在1之后实施) 3、终结性测评 (二) 按照解释测评结果时的参照点分类 1、常模参照测评:是将被试水平与测验常模相比较,以评价被试在团体中 的相对地位的一种测评类型。(相对) 2、标准参照测评:将被试表现与既定的教育目标或行为标准相比较,以评 价被试在多大程度上达到该标准,也称为目标参照测评。(一般采取此 法) 3、潜力参照测评:将被试实际水平与其自身潜在水平(潜力)相比较,以 评价被试有无充分发挥自身潜力为目的。在强调人性化、动态化、个别 化教育测评的潮流下,应多用此法。 4、讨论: 有人认为,用相对位置或相对分数来描述与评价学生的学习情况是不符 合素质教育思想的。这样,常模参照测量与评价方法,在新一轮基础教育课 程改革中还有存在的价值吗?你怎么看待这些问题? (三) 按照测评被试行为表现的性质分类 心理学家把人的行为表现分为:最大成就和典型行为两种 1、最佳行为测评:以测量被试的最佳行为表现为目的,凡以成就或能力的 高低作为评价基础的,都属于此类。如,考试或升学考试 2、典型行为测评:该测评的目的不在测评被试能力的高低,而是测评其是 否具备某种或某些典型行为。换言之,要求被试按照通常习惯方式做出 反应(即典型行为),如态度、情感、人格、兴趣测量等属于此类。 (四) 按照测评的内容分 1、智力测评:测量被试的智力,并对其发展水平和特点做出评价。 2、能力倾向测评:测评个人的潜在才能,预测个人的能力发展倾向。可分 为一般能力倾向测评(测评多方面潜能)和特殊能力倾向测评(探测某 方面的特殊潜能) 3、成就测评:测评个人在接受教育或训练后的成就。可以分为学科成就测 验:测评某一科目上的学习成就;综合成就测验:测评多个学科或综合 学科上的学习成就。 4、人格测评:也称为个性测评,测评被试的人格心理特征 ,如气质、性格、 兴趣、态度、动机、适应性等方面的心理特征。 (五) 教育测评的其他分类 1、 按测量对象可分为:个别测评与团体测评 个别测评: 同一主试在同一时间内只能测量一个被试。 (主试可以获得更多信息, 但须经严格训练,费时)。 团体测评:同一时间内由一位主试测量许多被试。(节省时间,不易控制误差)11 2、 按照测验材料可分为文字测验和非文字测验 文字测验:测验内容以文字形式表现,被试也用文字作答,也称为“纸笔测验”。 非文字测验:测验内容通过图形、仪器、工具、实物、模型等形式表现,被试通 过指认、手工操作向主试提供答案,也称为操作测验。 3、 按照量具的标准化程度可分为标准化测验和非标准化测验 标准化测验:由测量专家按照测验编制程序而编成的一种测验。 非标准化测验:编制相对自由,没有严格按照编制程序进行。 此外,尚有其他分类,按评价是否关注历程,分为过程评价和结果评价。 按测验的执行方式:口头测验、纸笔测验、操作测验、计算机测验。 按答案和评分的客观性:客观题测验、主观题测验。 按测验题目与被试的关系:自适应测验、非自适应测验。 二、教育测评的主要功能 (一)实现教育判断的功能(最基本、原始、现实、普遍的功能),包括: 1、测量评定的功能 教育测评的直接目的是为了客观地评定学生的学习成绩, 或者给应试者的行为表 现评定一个成绩。之所以有此功能,是因为该判断过程不是主观随意的,而是科 学、客观的。 2、事实判断的功能 在测评过程中可以系统收集资料, 在此基础上可以对被试对象或被评定对象的某 种属性、行为表现等做出符合事实的判断。 3、价值判断的功能 价值判断建立在事实判断基础上,前者具有社会性,后者有写实性。 4、问题诊断的功能 如对学生学习困难、心理问题、儿童智力发展、教师教学问题、课程设置、课程 计划、课程实施、教育管理机制、办学问题的诊断。 5、区分选拔的功能 (二) 改进教师教学的功能 1、了解学生的起点行为(在教学前实施) 2、作为改进教学的参考,使教师明了其在教学上的缺失、判断教材的可用性、 教学方法的有效性。 3、作为补救教与学的依据 4、确保教学目标的达到(单元、期中、期末测验) (三)促进学生学习的功能 1、激励学生的学习动机 一份有效测验可以:1)为学生提供短期学习目标;2)明确所要学习的内容;3) 提供有关学习进步的反馈信息。 2、帮助学生的记忆和促进迁移 3、促进学生的自我评价 (四)行使教育管理的功能 1、对教师的管理12 1)教师的资格评定;2)教师的教学艺术水平评定;3)教师的管理水平评定;4) 教师的个性评定。 2、对目标的管理 3、对过程的管理 第三节 化学教育测评研究(刘知新,13-19)第二章 化学教育测评的质量特性 (黄光扬,第三章;刘知新第四章2-4节;张敏强第三章) 一、真分数模型【张敏强,教育测量学P49】 经典测量理论起始于 19 世纪末,经过几十年的发展,到 20 世纪 50 年代便 形成了一套相当完整的理论体系。1968 年洛德(F.M.Lord)和诺维克(M.R.Novick) 的《心理测验分数的统计理论》一书,将经典测量理论的发展推至颠峰状态。经 典测量理论在测验的编制、 实施和评价等方面都提出了一系列具体的、实用的统 计方法,直至今天,这些方法仍然广泛地应用于测验工作的各个领域,在测验实 际工作中保持着强有力的影响。 ??经典测量理论的基础是真分数理论, 经典的信度理论正是由真分数理论导出 的。 在经典真分数理论中, 真分数被定义为: 用某一测验的大量 (理论上无限的) 相等形式对某个人施测所得到的平均分数。通俗地说,真分数是指在只有随机误 差的测量下所得到的分数。 教育测量学家把20世纪初发展起来至50年代逐步完善的测量学理论称为经 典测量理论。 其特点之一是各种测验的参数需从考生样本中求得,其理论基础是 真分数模型。 真分数: 其数学上的定义是: 测量上被试的真分数是观测分数 (或者说测量实得分数) 的期望值。可以用公式表示为:T =ξ X ?(a) T:被试的真分数 ξ :数学上的期望值 X:被试在测验上的实得分数 显然,在此意义上的真分数是不能直接测量得到的,因为根据公式(a),可 将T解释为被试在无数多次独立重复策略上获得的平均观测分数。即 T= ?? 从信息论观点出发, 可对真分数做出定性的解释:任何一组信息都包含有真 正的信息信号和无关的信息(噪音)。心理于教育测量的目的在于获得被试的真 正信息, 排斥无关信息。 测量上称前者为真分数, 后者为误差。 由于误差的存在, 直接测量而得的观测分数便会在一定范围内波动。 经典测量理论的真分数模型对 此进行了简单有效的描述,它提出了一系列基本定义和推导: 1、X = T + E (E:测量误差) 观测分数是真分数与误差分数之和。 这是经典真分数理论中最重要、最基本的关系式。13 ??在所讨论的问题范围内,真分数不变,亦即个体具有恒定的特质,其份量一 定,取值是常数。 ⑶误差是完全随机的,即 ??①如果测量次数足够多,则误差 E 的平均数应接近于 0,即误差 E 的期望值 为 0。 ??②真分数和误差分数的相关为 0,即 ??ρ (E,T)?=? 0 ??③一个测量的误差分数与第二个测量的真分数之间的相关为 0,即 ??ρ (E1,T2)?=? 0 ??④不同测量误差之间的相关为 0,即 ??ρ (E1,E2)?=? 0 2、 T = X 真分数与观测分数的各自平均数相等。 3、ξ E = 0 误差分数的期望值为0 4、ρ TE = 0 真分数与误差分数的相关为0,由于真分数是测验所测的个体稳定性的心理 特征,因此不会随测验的误差而变化。因此,可证明T与E线性无关。 5、ρ E1E2 = 0 不同测量误差之间的相关为0。 6、σ X2 =σ T2+σ E2 观测分数的方差等于真分数的方差和误差分数方差之和。 真分数模型以弱假设为基础, 即这些假设很容易验证并易于被绝大多数测验 数据资料所满足。 经典测量理论因而得以在此基础上建立一整套理论及统计分析 方法。对于教育和心理测量,经典测量理论要求被试完成一定的作业或试题,然 后根据其实际作答的表现来推论和评价其心理特质发展水平。因此,教育测验编 制的程序和要求、测验题目的质量的定性与定量分析、测验本身质量的信度、效 度的评估,等等,皆能反映经典测量理论的影响与限制。 经典测量理论的局限和不足: A、在真分数模型中,问题的核心是观察分X(真分数T)并不位于等距量表 上。即:X和T是按照所回答的特定项目来定义的,那么回答比较容易的题目的被 试会获得较高的X和T值。因此,从两组测验题目中得到的X和T是不可比的,除非 两个测验完全等值――但这很难做到。 B、经典测量理论的统计分析方法得到的各项指标,依赖于它们所来自的特 定的被试样本。如,被试样本组的能力水平很高,那么测验题目对他们而言会很 容易,因此题目的难度就小;而若同一组题目施测于能力水平低的被试样本组, 题目难度显然增大。再者,若被试样本组的能力水平参差不齐,那么他们在某测14 验中得分便会有高有低, 该测验对被试的区分力就大;而若被试样本组中清一色 是能力高者或低者, 那么他们在测验上的得分就会差别不会很大,因而该测验的 区分力就会变小。 可见, 被试样本的取样会严重影响到经典测量理论的各项统计 指标。 C、真分数模型中已指出测量误差的存在。经典测量理论是以测验信度和误 差分数的方差两个指标来表示测验结果的精确程度的。 但这两个指标一般是从被 试总体中得来的对整个测验质量的描述, 它们对特定区间或是特定个体可能都没 有什么特别用处。 二、测验误差【张敏强,教育测量学P98】 1、定义: 测验误差:指由与测量目标无关的变因所引起的不准确和不一致的效应。 随机误差: 由偶然因素引起的无规律的误差称为随机误差。随机误差造成同 一测验对同一对象多次施测结果之间的不一致, 而且每次变化的大小和方向均是 不稳定的或说是完全随机。 系统误差:由某种常定因素引起的有规律的变化,称为系统误差。系统误差 稳定存在于每一次测量之中,使测验的多次结果其大小和方向恒定地偏离真值, 从而造成测验结果的一致但不准确。 随机误差影响到测验结果的一致性,而系统误差影响到测验结果的准确性。 因此它们分别与测验的信度和效度有关。 E = X - T E 和 X 都是随机变量,T对于特定个体而言是一个常数,乃该个体的观测分 的期望值,亦即真分数。 注意: 系统误差对于特定测验而言是恒定不变的, 并不属于误差的随机变量, 因而不在讨论之列。 2、测验误差的诱因 1)测验本身的误差诱因 2)测验施测过程的误差诱因 3)测验计分过程的误差诱因 4)主试方面的误差诱因 5)被试方面的误差诱因 6)机遇引起的测验误差 三、相关系数【刘P80】 统计相关: 两个或两个以上变量,它们的若干对观测数据之间可能存在数学 上描述的某种函数关系, 或是在某种程度上的相互联系,这种联系是通过总体中 的大多数表现出来的一种统计关系,这种联系称为“统计相关”。例如:在一个 班中, 学生的语文成绩与学生的数学成绩, 是不是语文成绩好, 数学成绩就好呢。 也可以问, 语文成绩的高低对数学成绩有影响吗?如果存在影响的话,是一种什 么样的影响呢? 又如:一个班的学生中,学生的数学成绩与物理成绩、化学成绩,或是物理 成绩对化学成绩、数学成绩有影响吗? 再如:在教学改革实践中,我们常常要知道教学改革是否有成效,经常用对15 比实验法,在一个班实行教学改革,而另一个班按原来的教学方式进行教学,最 后用同一试题进行测试, 我们要根据测得的成绩判断学生成绩的进步是否由教学 改革引起的,也需要用到相关系数 1、相关的分类 所谓相关是指两类事物或现象在发展变化的方向上相互联系的状况。 1)简单相关(simple xorrelation):一个变量增加(减少)另一变量增 加(减少);复相关:一个变量与两个或两个以上变量相关。 2)直线相关:二个变量的变化关系成直线关系;曲线相关:二个变量的变 化关系成曲线关系。 3) 正相关:(positive correlation):一个变量增大时另一变量也增大; 负 相关(negative correlation):一个变量增大时另一个变量减小;零相关(zero correlation):一个变量变化时,另一变量不变。 一般有以下三种相关状态: 正相关――两列变量的变化方向相同,即一种变量有增大或减小的变动时, 另一变量也同时发生增大或减小的变动。例如,人的身高和体重之间就存在正相 关。 负相关――两列变量的变化方向相反,即一种变量有增大或减小的变动时, 另一变量却同时发生减小或增大的变动。例如,练习次数和错误出现次数之间就 存在负相关。 零相关――两列变量的变化之间没有明显联系, 即一种变量有增大或减小的 变动时,另一变量只作无规律的变动。例如,学生的学习成绩和其身高或和体重 之间就是一种零相关。 2、求相关系数的方法: 相关系数是表示两列变量之间相关程度的一种统计量数。 相关系数是教育测 评常用的一种统计量数。在利用信度、效度、区分度的指标评价试题质量时,也 必须用到相关系数的计算公式。因此,在讨论试题的信度之前,有必要先了解相 关系数的概念及其计算方法。 A、简单相关: 积差相关(r)(两列正态分布的连续数据相关) 等级相关(rR)(两列等级数据相关); 点双列相关(rPb) (一列数据是正态分布连续数据,另 一列是二分变量数 据); Phi(Φ )相关(rφ )(两列数据都是二分变量或可转换成二分变量)。 B、复相关(偏相关):(3个或多个变量有互相相关关系,然后除去1个或多个 变量的影响后其余2个变量的相关关系) 如: r12,3 ; r 12,34 1)积差相关(Product-monment correlation)计算公式:r?? x ? y ? ? [( X ? Mx) ? (Y ? My)] N ? Sx ? Sy N ? Sx ? Sy16 x:-- X数列观测值与X数列平均数之差。 y --- Y数列观测值与Y数列平均数之差 Sx、Sy--- X、Y数列的标准差 N :成对数据数目。x?y称为积差。 或者,r??X2? XY ? ? N ? ? (? X ) ? Y ? (? Y ) ?X? Y2 22NN? Mx ? My N r ? 1 X ?M r ? ? Zx ? Zy ? ? ? ?Sx.Sy? ? (其中Z , 是标准分的一种) N Sx( ? XY )3、r值的意义 相关系数不仅表示两列变量之间相关的方向,而且还能表示相关程度的大 小,常用r 表示相关系数,其取值介于-1.00―+1.00 之间。当r>0 时,表示正 相关;r=0 时,表示零相关;r<0 时,表示负相关。r 的绝对值越大(越接近 于1),表示相关程度越大;r 的绝对值越小(越接近于0),相关程度越低。相 关系数并不代表相关的比率或百分数,更不是单位相同的相关量的度量。 ? r = 0.0 C 0.03 : 表示相关程度低 ? r = 0.3C 0.5 :相关程度普通 ? r = 0.5 C 0.7 :相关程度显著 ? r = 0.7 C 0.9:相关程度高 ? r = 0.9 C 1.0 :相关程度极高 ? r = 1.0 完全正相关 ? r = -1.0 完全负相关 ? r = 0.00 不相关 相关是自然界或社会中常见的一种现象。 要注意的是不能将相关关系和因果 关系混淆, 即当两列变量存在相关时,不能认为一种变量的变化是另一种变量变 化的原因或结果。 第一节 化学教育测评的信度(要先讲真分数模型、测验误差、相关系数) 一、 信度(reliability)的概念(黄 46页) 信度,简言之测量结果的可信程度。或者,信度指的是测量结果的稳定性程 度,记为rxx ,即用同一测量工具反复测量同一种特质对象,则多次测量结果间 的一致性程度就叫信度。 系统误差对信度没什么影响,因为系统误差总是以相同的方式影响测量值 的,因此不会造成不一致性。反之,随机误差可能导致不致性,从而降低信度。17 信度可以定义为随机误差R影响测量值的程度。如果R=0,就认为测量是完全可 信的,信度最高。 信度追求的是对这种无系统的随机误差的控制, 它反映了测量随机误差的大 小。信度只受随机误差的影响,随机误差越大,信度越低。 测验本身抗干扰能力强, 测验实施过程各方面误差因素都控制得好,多次施 测所得分数(测值)的一致性就高,这就叫测量信度高,人们在使用所得测值时 就会感觉可靠。 测验信度是对测量工具及其操作的整体质量的一种量度,是测验 性能的重要质量指标。 rxx==σ 2T/σ 2x, 或者rxx==ST2/Sx2 X==T+E (X: 直接得到的分数, 观察分数, T:被试客观具有的水平值,E:误差) σ 2T ,ST2为真分数方差。σ 2x ,Sx2为观测分数方差。 (真分数: 被试在所测特质上客观具有的水平值; 观测分数: 施测中得到的分数。 ) 教育心理测量不能多次测量取平均值来增加可信度。 随机误差影响到测验结果的一致性,即信度。 观察分数(X)由一般真分数(T)与误差分数(E)构成,即X==T+E,实际上,T 还可以进一步分解为:目标真分数(V)与非目标真分数(I)。 V:指反映被试某种心理特质真正水平的数值。I:指被试在某种心理特质测量量 表上表现的与测量目标无关的稳定测值,如政治题得分。 所以,X==V+I+E,rxy==σ 2v/σ 2x 二、 信度的估算方法(黄47页) 1、重测信度(test-retest reliability)也称为再测信度,指的是用同一个量 表(测验或评价表)对同一组被试施测两次所得结果的一致性程度。 基本假设:某测验所要测量的潜在特质,短期内不会随着时间推移而改变。 所以又称为稳定性系数。 重测信度高低和两次测量时间间隔有密切关系,时间越长,重测信度越低。 一般,在时间间隔内,被试的遗忘和练习的效果基本上相互抵消,才是适度的时 间间隔,没有固定标准。 重测信度适用于异质性测验。 所谓异质性测验就是一个测验包括几个不同的 部分, 这几个部分分别测量几个不同的心理特质,它们之间可能并不存在相关或 相关较低。对于这种异质性测验不适宜计算它的内部一致性信度。这时,重测信 度是比较可靠的。另外,重测信度适用于速度测验而不适用于难度测验。还适用 于运动机能的测验,如跑、跳、掷等。 该信度易受练习和记忆的影响。 2、复本信度(alternate-forms reliability) 复本测验(alternate-forms test,equivalent forms test,parallel forms test):指在试题格式、题数、难度、指导语说明、施测要求等方面都相同,并 用来测验相同潜在特质或属性,但试题又不同的测验,也称之为平行测验。 复本信度: 指两个平行测验测量同一批被试所得结果的一致性程度。实施复 本测验的两种方式:在同一时间连续施测;间隔一段时间后施测。 误差(局限):复本间的相似性(即两份试题的等值程度),记忆、练习效 应的影响。 3、分半信度(split-half reliability)18 分半方法:1)完全随机分半;2)奇偶题目分半;3)将测验分成若干内容 块,再将各内容块的题目奇偶分半。这种方法最有效,应用最广。 分半信度指将一个测验分成对等的两半后, 所有被试在这两半上所得分数的 一致性程度。 将测验分半方法:按题号奇偶、按题目难度、按题目内容。不同分法会得到 不同的信度值。一般,测验越长,项目越多,两半分数的相关就越高。 因为求得的信度只是半个测验的信度,所以要矫正。用斯皮尔曼-布朗公式 矫正,rxx==2 rhh/1+ rhh (rhh:两半测验间的相关系数,rxx:信度) 4、同质性信度(homogengity reliability),也称内部一致性信度(internal consistency reliability ),指测验内部所有题目间的一致性程度。包括两方 面:所有题目测的是同一种心理特质;所有题目得分间都具有较高的正相关。 同质性信度基于的假设是: 当一个测验具有较高的同质性信度时,说明测验 主要测的是某一单个心理特质, 由于众多的题目测试了同一心理特质,那么实测 结果就是该特质水平的反映。如,用一道选择题测量被试的数学能力,机会性太 大, 并不能反映被试的真正水平。 但是用10道题及至更多的题来测被试数学能力, 如果这些题真的是测量同一种能力的话,那么随着题量增多,必然会更加客观地 反映被试的真实水平。信度估计的几种方法 信度类型 误差来源 重测信度 时间取样 复本信度 重测复本信度 分半信度 同质性信度 内容取样 内容-时间取样 内容取样 内容取样测量次数 2 1 2 1 1需试题数 1 2 2 1 1计算方法 求两次测试分数的相 关系数 求两个复本分数的相 关系数 求两个复本分数的相 关系数 求两半试题分数的相 关系数第二节 化学教育测评的效度 一、效度(validity)的概念、意义【黄,59页】 效度指的是一次测量的有效程度,严格说,效度指一个测验或量表实际能测 出其所要测量的特性的程度。如,数学测验,教师本打算检查学生乘除运算,可 试题多是加减运算。 注:效度与信度一样,也是个理论构想概念。 系统误差影响测量结果的准确性,即效度。 效度总是和一定的测验目的紧密联系在一起的, 一种测验总是为了测量某种 特性或功能而编制的,判断测验效度的高低,就是看它能达到测验目的的程度。 如果能正确、 真实地测出所要测量的东西, 那么这对一定目的来说便是效度高的19 测量。因此离开测量目的谈测量的效度是没意义的。 注意: 1)效度总是针对一定测量目的而言的。一个测验用于多个方面,就有多个 效度,可能有的效度高,有的效度低。 2)效度只有程度上的差异。由于教育与心理测量的间接性,使得其测量过 程不可能百分之百的准确。 不过,由于某个量表的编制都是针对一定的目的的行 为,所以在正常情况下,测量不会“完全有效”或“完全无效”。 3)效度是针对测量结果而言的。测量的效度如何,只有在实际测过之后才 能表现出来。只有当测量结果真实,正确反映要测量的特性,才能认为这种测量 是较为有效的或效度较高的。 测量效度实质上就是测验所测到的结果与测量编制 者想要测的心理特性之间的一致性程度。 4)评价一个测量是否有效要多角度、多方面地收集证据。 5)信度高是效度高的必要而非充分条件。 (a推出b,那么a是b的充分条件, 反过来,b推出a,那么a是b的必要条件,如题目意思,b推出a,而a无法推出b, 那就是a是b的必要非充分条件) 由σ 2x==σ 2v+σ 2I+σ 2E可知,效度高,信度一定高;信度高,效度不一定高。 二、效度分类【黄61-63,刘P87】 1、内容效度:指测验题目样本对应于应测内容与行为领域的代表性程度。 内容效度是指根据测验目的确定的测验内容所引起的预期反应达到测验目 的的程度。 化学测量的目的是考察学生达到教学大纲所规定的教学目的和要求的 程度, 测验内容就应该是对化学教学内容有代表性的题目。如果测验题目的代表 性好,测验就可以较好地测量学生学习成绩,试题的效度就好。 但是, 要用有限的几个或几十个项目代表全部教学内容是比较困难的。 因而, 测验项目的代表性有大有小, 测验的内容效度有高有低。教学测验具备较高内容 效度的条件: 一要有定义完好的内容范围,二要使项目对教学内容有较好的代表 性。 进行这类估计首先要制定好双向细目表,双向细目表与测验目的一致,试题 与双向细目表中的内容一一对应,基本可以保证试题的内容效度。 判断化学试题内容效度的一般步骤是: 1)考察测量的目的、测量目标分类体系,了解试题取样的依据和材料的来源; 2)考察试题的双向细目表,看其双向细目表的划分及各个部分的比例是否符合 化学教学大纲和考试目的要求。 3)逐个考察每个试题,包括题目内容、参考答案、评分标准等,并与双向细目 表对照,看试题能否代表其测量目标。。 4)综合上述各项的考察结果,对试题的内容效度作出判断 这种方法实际上是一个逻辑分析过程, 以此方法确定的内容效度也可称为逻 辑效度。此外,还可以用再测法和经验法判断试题的内容效度。再测法是在教学 过程前后分别用同一份试题或等值复本进行两次测验, 若后一次测验分数大大高 于前一次测验分数,则说明测验内容和教学内容一致,试题有较高的内容效度; 反之, 内容效度就低。经验法是用包含不同年级教学内容的试题测验各个年级的 学生, 考察不同年级的学生的总分和在代表各个年级教学内容的项目上的反应情 况, 如果学生的测验分数和项目通过率随年级增高而增高,则说明项目代表了不 同年级的教学内容,测验有较高的内容效度。用内容效度考察试题的有效性,是20 目前比较合适且应用较多的方法。但由于内容效度尚未找到较理想的数量化指 标,因而妨碍了试题评价信息的交流和各测验间的相互比较。 内容效度的分析方法: 1)逻辑分析法分析:将“题目双向分类表”与“命题双向细目表”对照。 适用于教育测量(学业成绩测验),不适合某些特征的心理测验,如智力、人格 等,因为其外延不明,结构复杂。 2)量化分析法:【黄,63】 即将专家的判断综合为一个内容效度系数的统计方法。 该方法要求专家在仔 细审阅测验目标的基础上, 独立地对测验每个题目作出判断:该题目实际测到的 内容与其欲测量的目标内容之间相关程度如何, 并且用四点量表来表示这种相关 的程度大小。 四点量表:“1”表示完全无关,“2”表示有点相关,“3”表示相关较密 切,“4”表示完全相关。前两者为弱相关,后两者为强相关。当两位专家都完 成了此项工作后,即可形成下表: 专家一 弱相关 强相关 专家二 弱相关 A 4 B 5 强相关 C 4 D 87 (A―D表示题目数) 内容效度系数==D/(A+B+C+D) 这种量化后的内容效度系数,其值介于0-1之间,且数值越大表示内容效度越 高。 如果一份有100个题目的测验,则内容效度信度==87/(87+4+4+5)= 0.87 如果参与评判的专家人数多于两人时,那么将所有专家进行两两匹配组合, 再依据上述办法求出每一对组合的内容效度系数, 然后计算这些内容效度的平均 值,即可作为该测验内容效度系数的估计值。 2、效标效度【刘知新,90】 效标效度是指测验分数与效标的相关程度。所谓效标,就是检验测验有效性 的一种参照标准。 效标常用一种公认比较可靠或权威的测验结果表示。这实际上 就是用一种已知的且认为其“有效”的测验结果去检验另一个新测验的有效性。 之所以不直接用效标测验去代替新测验, 往往是因为新测验可能比效标测验更为 简单、易行。 化学教学中常用学生的实际高考成绩与模拟高考试题得分之间的相关来检 验高考模拟试题的有效性。 这里应用的就是效标效度的检测方法,高考就成了模 拟考试的效标。 衡量一次考试, 除评估考试内容的有效性程度外,还可以根据客观效果来检 验。效标(即效度标准)是指考察特定考试是否有效的一种外在参照标准。所谓 效标关联效度就是以某一种考试与这种效标之间的相关程度来表示的效度 (故也 称为统计效度) 其相关系数就是关联效度。当相关系数与总体零相关有显著性差 异时,相关系数的值(正值)越大,考试的效度就越高。21 最佳参照标准的制定: 为每次考试选择一个最佳的参照标准(效标)是件非常重要的工作。通常人 们是以另一种有关的考试分数或活动来表示,如同类的标准化考试分数。因为标 准化考试是一种取样范围大、题量多、覆盖面广、并经过有关专家鉴定和权威机 构确认的效度很好的考试。 寻找外在参照标准的过程称为树立效标。 效标必须围绕考试目的或作用选取。例如:人们在研究高考的选拨性考试预 测的效果如何, 可以将参加高考后,被录取学生在大一时的成绩作为高考效度的 标准,利用大一时成绩与这些学生在高考时的成绩的相关系数作高考的效度系 数。(注意两次考试的间隔越长,其效标的有效性越差,这是不言而喻的。) 3、构想效度【刘知新,89】 构想: 教育家和心理学家们总是对人的一些抽象属性的测量感兴趣, 如智力、 动机、社会性等。这些理论上所涉及的抽象而且属假设性的概念或特质,就是所 谓的构想。【张敏强,122】。教育目标的学习水平分类就是一个构想。 构想效度就是指测验对预先设立的某一理论上的概念、 构想或研究特性的实 际测量程度。 考察和研究构想效度的目的是要回答下面的问题: 一个测验要测量的理论构 想是什么?测验对该构想测量到何种程度?在测验分数的总变异中有多少来自 要测的构想? 要判断一个测验的构想效度,通常需要经过以下三个基本步骤: ①确定能够解释学生在测验上表现的理论构想; ②根据理论构想推演出各种关于学生测验成绩的假设; ③用逻辑分析、统计分析等方法来收集证据、验证假设。 例如,中学化学教育目标(认知领域)的学习水平分类,实际上也是一个理 论构想,我们可以通过构想效度来评价某种分类方法的合理性。假设:当项目的 测量水平与测量目标(即学习目标)的学习水平一一对应时,学生在属于同一学 习水平的项目上的反应基本相同,而在属于不同学习水平的项目上反应基本不 同,那么,学生在属同一学习水平的项目上的得分应存在高相关,而在不同水平 层次的项目得分应具有低相关。 根据这一假设, 我们可以对所有项目或有重点的选择部分项目,计算其两两 之间的相关系数, 考察它们之中高相关的是否属于同一学习水平、低相关的是否 属于不同的学习水平, 从而验证我们的理论假设,进而评价学习水平分类的合理 性。 我们还可以通过对项目难度的分析来评价关于化学教育目标学习水平分类的 理论构想的合理性。假设:不同学习水平的项目应有不同的难度水平;属于高层 次学习水平的项目难度大, 而低层次项目的难度小;学习能力不同的学生对水平 不同的项目反应也应不同: 高分组学生在低水平项目上的反应差别小,而在高水 平项目上的反应差别大; 低分组学生却恰恰相反,只在低水平项目上的反应有差 别而在高水平项目上的反应几乎相同。根据上述假设,可以将项目按其难度大小 进行分组分析, 也可以分析高分组学生和低分组学生对难度不同的项目的反应情 况,对假设进行检验,从而评价学习水平分类的合理性。 当对测验结果的分析检验不能证实构想时,可能会有多种解释,例如:①构 想本身有错误;②测验的构想效度低,即测验没有能够测量构想;③检验假设的 程度、方法不够合理,等等。尽管构想效度目前还存在着许多局限性,但它毕竟22 提供了一种研究理论构想的具体方法, 使教育测量成为发展教育理论的有效工具 之一。 4、三种效度的意义及其估计方法小结: 类型 内容效度 构想效度 效标效度 意 义 测验内容反映测验目 的、要求的程度 测验分数能够用理论构 想加以解释的程度 测验分数与效标分数之 间的相关程度 估计方法 逻辑分析 提出假设和验 证假设 计算两种测验分数 之间的相关系数第三节:化学教育测评题目(项目)的难度 一、概念【刘知新,91】 难度(P)是指项目的难易程度。反映项目的难易程度的数量化指标叫做难 度系数,简称难度。项目越难,说明能够正确回答该项目的学生越少,或对该项 目学生能够正确回答的成分越低。 二、计算方法 1、用通过率计算难度。 当项目以二分法计分(答对得分、答错不得分)时,难度一般用正确回答项 目的人数与参加测验总人数的比值为指标, 即:P =R/N (P 为项目难度;R 为答对该项目的人数;N 为参加测验的总人数。) 举例: 2、用项目得分的平均值计算难度(当题目分数是多分值时) 当项目是用连续分数计分时,难度一般用参加测验的全体学生在该项目 的平均得分与该项目的满分的比值为指标,即:P = X /W (P为项目难度;X为该项目的平均得分;W为该项目的满分。) 如,一组被试在某题目上得分分别为:2,5,9,10,4,8,7,5,3,0 该题目满分为10 分,则该题目的难度P = X /W=2+5+9+10+4+8+7+5+3+0/10=0.53 3、当被试人数较多时,以两端组被试得分率的均值为难度系数(黄72页) P =PH+PL/2 PH:高分组被试的得分率,PL:低分组被试的得分率 步骤:A,将分数从高到低排序。B,从高分向下找,找出高分组,从低分向 上找,找出低分组,注:两组人数分别占总人数的27%。C,分别计算高分组和低 分组被试在该题目上的平均分。D,带入公式P= X /W ,求P 1)当题目以二分法计分时,公式为P= 1 RH RL ( + ) 2 NH NL(RH,RL :分别是高、低分组被试答对人数;NH,NL:分别是高、低分组被试的23 总人数) 2)当题目分数是多分值时,即为P= 1 ( H +XL 2 X )/W(XH,XL:分别为高、低分组在该题上的平均得分,W:为该题满分。) 如,从上例中,取高分组3人,低分组3人,则该题的 1 10+9+8 0+2+3 P= [ + /10]= 0.53 2 3 3 注:由以上两个公式计算所得的难度值与项目的实际难易程度正好相反。 难度值越大,项目反而越容易。如P=0.9,此项目难度小;P=0.1,此项目难度大。 3)当题目是选择题时,由于有多个答案可供选择,所以答对题数可能受机遇影 响,使P值增大,所以可矫正,CP= KP-1 K-1(CP为矫正后的难度值,P为未矫正的难度值,K为选项数目) 如果是有5个选项的选择题,则上例中CP=(5×0.53-1)/(5-1)=0.41 三、项目难度的评价【刘知新,92-94】 1、对分数分布形态的影响。 试题中所有项目的平均难度就是试题的难度。难度不同的项目比例不同,试 题的难度就不同,分数的分布形态也会因此而不同。比如,所有项目的难度都是 1,全部学生都会得满分;如所有项目难度都是0,则全部学生都得零分。在这两 种情况下,所有分数都集中在两个分数上(100 和0)。可见,过易或过难的测 验,会使测验分数相对集中在高分段或低分段,这时,分数的离散程度小(标准 差小)。 如果难度接近0的项目比例大,得低分的学生较多,分数分布相对集中于低 分段,则分数分布呈正偏态;如果难度接近1的项目比例达,则分数分布呈负偏 态;当难度成梯度出现,即从0.1―0.9的项目比例(0.1、0.5、0.9各占1/3) 相同或接近是,则分数分布最接近正态。 P是相对的,不能仅凭主观经验,它还与编制水平和学生的具体情况有关。 2、对测验的鉴别能力的影响。 当一部分学生能够正确地回答问题而另一部分学生不能正确回答时, 两部分 学生之间就形成了相互比较。在测验中,学生间相互比较的可能性越多,就越有 利于对学生进行鉴别。 项目的难度不同,提供这种相互比较的可能性的程度也不 相同。例如,当参加测验的学生数为100 时,某项目的P=0.2,说明有20 个学生 答对了该项目,80 个学生答错了该项目,这时,学生之间相互比较的可能性为 1600 次 (20×80=1600) 如果P=1 或P=0, ; 学生之间就没有相互比较的机会 (100 ×0=0 或0×100=0)。不难看出,当P=0.5 时,项目能够提供给学生相互比较的 机会最大(50×50=2500)。所以,项目的P值越接近0.5,对学生的鉴别力也就 越大;同理,项目的平均难度即试题的难度越接近0.5,试题的鉴别力也越强。 实际上,P多大合适要依据测验目的而定,如果要挑10%的学生参加竞赛,则24 P(即项目的平均难度)应在0.1左右。 3、项目难度的评价 一个项目的难度值应该多大才合适?对此,并没有一个确切的数值为其答 案。虽然项目难度在0.5 时,其鉴别力最强,但这并不意味着项目难度在0.5 时 质量最高。评价项目难度是否合适的依据,只能是测验的目的。 在平时的形成性测验中, 与化学教育目标相对应的测量项目都需要编入测验 中,尽管这些项目在前置性测验中难度值可能为0,而在后置性测验中难度值可 能为1,也不能将其舍弃而人为缩小测验取样的内容范围;在总结性测验中,需 要对学生的学习成绩做出区分,要求测验的平均难度达到或接近0.5,但为了保 证取样的代表性,应当使各个难度水平的项目都有分布,且比例适当。有时,还 需要根据测验的特殊目的来配置难度不同的项目比例。例如,我们要挑选10%的 学生参加化学竞赛,项目难度应相对集中于0―0.20之间,使项目的平均难度控 制在0.1 左右。 这样做虽然会使大部分学生不能完成测验,但能够达到选拔优秀 学生的测验目的, 项目难度的配置仍然是合理的。如果我们希望一次测验既要选 拔最高水平的学生, 又要找出那些需要进行个别辅导的学生,就需要使难度分别 为0.1, 0.5,0. 9的项目各占1/3左右。对于高考命题,在要求高考兼有为高 校选拔合格新生和评价中学教学质量双重职能时, 这就不能只是简单地使项目难 度都保持在0.5 左右了, 而需要精心配置项目的难度比例,使考试的及格率与录 取率正好相切。这样才能既有利于高校选拔新生,又可避免不良的社会效应。 要对测验中的项目难度比例进行合理配置, 必须在测验正式实施之前就对项 目难度做出准确判断。 要注意的是, 仅仅依靠主观经验来确定项目难度是不够的, 因为项目难度不仅取决于编制水平,还与被测学生的具体情况有关。一个本来很 容易的项目, 可能会因为学生由于某种原因没有学习过有关知识而变难;而一个 很难的项目, 也可能由于学生测前做过有关练习而变易。对被测总体中的某一部 分学生来说是容易的项目,可能对另一部分学生来说是较难的项目。这就说明, P 值所反映的仅仅是项目的相对难度而非绝对难度。正因为如此,预测是十分必 要的。 4、标准参照和常模参照中难度的取值(黄光扬,73-74) 第四节 化学教育测评的区分度 一、概念【刘94,黄74】 区分度:是指测验试题或项目对学生的实际水平的区分程度,记为D。或者, 题目区分被试水平能力的量度,又叫鉴别力。 具有良好区分度的试题或项目,实际水平高的学生应该能够通过或得高分, 实际水平低的学生不能通过或只能得低分。 区分度不好的题目水平高的学生和水 平低的学生得分都差不多。例如:难度非常大的题,高水平学生做不出,低水平 学生更做不出,大家都得0分;难度小的题,高水平学生得满分,低水平学生也 得满分,还是没有区分度。 1、区分度与信度:测验的信度随着题目的平均区分度的提高而增加,且信度 增加的速度比区分度增加的速度快。因而,提高试卷和题目的区分度是达到理想 的测验信度的一个有效途径。25 2、区分度与难度: A、题目难度在0.5左右对学生的鉴别能力最大,即区分学生的能力最好也即 区分度大。 B、区分度相同的项目其难度值可能不一样。P值小的题目所能区分的是高分 组的学生(因为低分组的学生做不出,所以对低分组的学生没有区分度);P值 大的题目所能区分的是低分组的学生(因为高分组的学生都能做出)。 C、为了区分所有的学生,需要测验中的全部题目都有必要的区分度,且难度 不同的项目比例也要适当。 二、区分度的意义【黄74-75:一,刘P94二、1,P98中3】 只有试题和项目具有良好的区分度,测验才会有一定的效度。 1、区分度与信度 区分度和测验的信度也存在着密切的关系。有人通过研究发现,测验的信度 随项目的平均区分度的提高而增长, 且信度增长的速度较区分度增长为快。 因而, 提高试题和项目的区分度是达到理想的测验信度的一个有效途径。 2、区分度与难度 项目的区分度与难度的关系,前面的讨论已经涉及。我们知道,在难度接近 0.5 时,项目的鉴别力接近最强,也就是区分度值接近最大。区分度相同的项目 其难度值可能不一样。 在这种情况下, 值小的项目所能区分的是高分组的学生, P P 值大的项目所能区分的是低分组的学生。 为了对全部参加测验的学生都能够有 所区分, 需要测验中的全部项目都有必要的区分度,且难度不同的项目比例也要 适当。 一般,无论测验的目的是什么,在其他指标相同的情况下,都尽可能选用区 分度大的项目。 试题区分度的三种情况; 区分度的分析方法,可分为两类,一类是外在效标法,即分析被试在测验题 目上的得分与外在客观标准上的表现间的关系。即事先找到一个客观标准,先把 被试按优劣顺序排好,再看被试在测验题目上的得分,其顺序是否跟前者相符。 (但此标准难找) 另一类为内部一致性法: 即分析被试在测试题上的得分与在整个测验总分间 的一致性程度,多用此法。在此意义上的区分度就是题分与总分的相关程度。因 为总分总比个别题的得分更接近考生的实际。 区分度值在-1.00―― +1.00之间,通常D为正值时,称作积极区分;区分度 为负值时,称作消极区分;区分度为0时,称作无区分。 三、区分度的计算 区分度的计算可以用内部一致性系数计算。 内部一致性:指学生在某项目的得分与其所得测验总分的一致性。 意义在于: 区分度值越大, 说明总分较高或测验合格的学生在该项目上通过 或得高分的可能性也高; 而总分较低或测验不合格的学生在该项目上通过或得高 分的可能性也小。 项目的区分度低则恰恰相反, 在该项目上通过或得高分的学生反而总分低或 测验不合格,而在该项目上不能通过或得低分的学生反而总分高或测验合格。26 1、相关法 区分度的实质是题分与总分的相关, 所以各种计算相关系数的方法均可用于 计算区分度。 1)点双列相关系数(适用题目是0、1计分,或称为二分变量,而测验总分是连 续变量的数量资料。)其计算公式如下:(rPb:为点双列相关系数,,分别为通过、没通过该项目的被试的平均总分,P,q分别为通过、没通过该项目的被试人数占总人数的百分比。 为全体被试总分的标准差。 例如: 某班15名学生参加一次测验的总分及第一题的得分情况如表,求第一 题的区分度? 学生 A B C D E F G H I J K L M N O 题分 1 0 1 1 1 1 1 0 0 0 1 0 1 0 0 总分 90 81 80 78 77 70 69 65 65 50 49 42 35 31 30 8 P= =0.5333,q=1-P=0..50, rpb=0.4624 2、 高低分组法 用高分组在特定题目上的得分率和低分组在相同题目上的得分率之差作为 题目区分度的指标(高低分组人数比例各占总人数的27%),被称为鉴别度指数, 记为D,D=PH-PL,还可以D= XH-XL (PH,PL分别为高、低分组在该题目上通过人数 F =47.71 , =22.48的百分比,XH,XL分别为高、低分组在该题目上的平均得分,F为该题目满分值。) 区分度值越高,题目越有效,而且它适用于各种题分情况,所以在实际应用 中,人们常采用高低分组法来计算题目的区分度。1965年,美国测验专家艾贝尔 (R.L.Eebl)依据长期经验提出用区分度评价题目性能的标准如下表: 表:项目区分度评价标准 区分度值 评价 0.4以上 优良 0.30-0.39 合格 0.20-0.29 尚可,需修改27 0.19以下应淘汰从数值上看:区分度的数值在+1― -1之间,如果区分度为正值,则值越大 越好。 对于二分值计分题, 一般来说优良试题区分度在0.4以上, 若区分度在0.2― 0.29之间,则试题需要改造,区分度在0.19以下的试题则必须淘汰或改进。对于 非二分值试题,由于其猜测作答的成分较低,区分度为0.3以上就是优良题, 0.2-0.29为良好题,0.1-0.19为可以用的题。 无论测量的目的是什么, 在反映题目质量的其它指标相同的条件下,应尽可 能选用区分度大的题目。 研究表明, 尽管采用不同的方法计算出的区分度值不同,但在根据区分度值 决定题目取舍时,结论却是完全一致的。 显著性检验:对于内部一致性系数作为题目的区分度值, 还可以通过对相关 系数的显著性检验来评价题目的质量。 一般是将计算所得的区分度值与相关系数 临界值比较,如果大于临界值,检验结果达到显著相关水平,说明题目得分与测 验总分之间确实存在着内部一致性,题目的区分度水平是可以令人满意的。如果 检验未达到显著水平, 那么, 题目的得分与测验总分之间的关系可能是由于某种 偶然因素造成的,题目的区分度未能达到测验所要求的水平。 四、选择题的反应模式分析【刘 P99】 通过对题目的难度和区分度的评价,可评价选择题,对于难度和区分度不合 理的选择题, 可以根据学生对选择题各个备选答案的选择率, 对选择题作出评价。 (1)难度接近1.0。题目中正确答案过于明显,需要增大错误答案的迷惑性; (2)如果某个答案几乎没有学生选择,说明该选项不具备迷惑性,一般来说在 大型考试中,一个选项的被选率小于3%,则此选项应修改; (3)如果错误答案的选择率高于正确答案的选择率,就可能是编制时确定的正 确答案有误,或教师在教学中发生了错误。 (4)如果规定选择题的正确答案只有一个,而高分组的学生的选择却集中于两 个答案且两者的选择率相近, 说明该题可能存在两个正确答案。或是在某种意义 上另外一个答案也有一定的正确性。 (5)如果高分组对正答案的选择率与低分组相近甚至更低,那就说明该题目的 测量内容与学生的实际水平无关,应该删除。 (6)如果某题目各个被选答案的选择率几乎相同可未作答的人数较多(并非由 于答题时间不够引起),说明该题目过难或题意不清,学生无法作答或只能是猜 测作答。 五、标准参照测验的题目分析【张敏强,P94-95】 前述题目分析技术是针对常模参照测验而定的, 标准参照测验的题目分析之 关键在于对题目与目标(标准)的一致性的分析。 1、 测验的预测 1)教学前―教学后样本组 2)未受教学指导―已受教学指导样本组 3)对照样本组 2、 题目的难度28 3、 区分度 1)柯克斯等提出:后测中正确回答某题目的学生的比例减去前测中正确回答该 题目的学生的比例所得之增益数为区分度。 2)克内恩等提出:以指导组中正确回答某题目的学生的比例减去未指导组中正 确回答题目的学生的比例而得之增益数为区分度。 3)罗登巴赫提出:以在前测中错误回答而在后测中正确回答某题目的被试的比 例为指标。 4)考塞考夫和克内恩提出:以在前测中错误回答而在后测中正确回答某题目的 被试比例减去在前测后后测中均错误回答某题目的被试比例而得增益值为区分 度。第五节 化学教育测评方案的可用性(黄P81-85) 可用性:指方案质量性能可靠稳定,针对性强,对于所有被测评的对象是客 观公平的,同时在操作上具有可行性、易用性、经济性等特点。 一、科学性、公平性、可行性 1、科学性:指被测评结果能准确地反映被测对象的真实情况,达到测量目的, 即测量要有较高的信度和效度。 2、公平性:具有相同的机会获得好成绩。 如:某年高考实验卷中有关鱼头、鱼尾的漫画。“我第一次去公园”。 3、可行性 二、针对性、区分性、简洁性 1、针对性 2、区分性 避免“社会认可效应”,即依据社会评价指标作答,而非提供真实答案。 例:你是否觉得自己很难与孩子交流思想和感情? A、很困难 B、有点难 C、较容易 D、很容易 可以改为: 例:许多家长说,他们觉得与孩子交流思想和感情,你认为这种情况是否真的存 在? A、肯定存在 B、有时存在 C、几乎不存在 D、根本不存在 3、简洁性 第三章 化学教育测验编制的一般原理与方法 【黄第4章,刘知新2、3章,张敏强第2章1、2节】 第一节 化学教育目标 一、化学教育目标与测验目标 确定测验目标是编制测验的首要前提。 测验的编制要以预定的测验目标为基 础,才可以避免盲目性,保证有向性。就教育测验而言,参加测验的人是学生, 测验目标自然就是学生的受教育结果――教育目标。 所以教育目标不仅是教育活 动的依据,也是教育测评的依据。(教育目标是督、学、教、考的依据) 严格说, 教育目标与教学目标是不同的,当限于学校环境下的教育活动时是 教学目标。广义上,学生的行为变化在学校、家庭、社会三方面取得,从这个意29 义上论及的是教育目标。 1、化学教学目标定义(刘知新P21-23) 化学教育(教学)目标是指化学教育(教学)活动的主体在具体的化学教育 (教学)活动中所要达到的预期结果和标准,其主要内容是学生的思维、情感和 行为的变化方式。可以说, 化学教学目的和化学教学目标都是对化学教学活动所 提出的要求和规定,但是,两者涵盖的内容宽窄不同,其区别在于: 第一,化学教学目标是化学教学目的的下位概念,是特殊和一般的关系。化 学教学目标只对某一具体的化学教学活动起指导作用; 而化学教学目的则要对整 个教学过程, 包括各层次的教学活动都起指导作用。在一系列的教学活动中可以 提出一系列的教学目标, 而该系列的所有目标都要受到教学目的的制约,该系列 的总体效应就是教学目的。 第二,化学教学目的具有稳定性和指令性,化学教学目标具有灵活性。化学 教学大纲作为化学教学的指令性文件, 所规定的化学教学目的体现了社会的意志 及化学教学的客观要求, 教师必须遵照执行而不可随意变更, 具有一定的强制性; 而化学教学目标则可以根据具体的教学实际情况来制定, 且可以由教师根据教学 需要加以调整、变更,是带有一种教学策略意味的规定,具有较大的灵活性。 通常所说的化学教育目标有狭义和广义两种界分。狭义的化学教育目标与某 一具体的化学教育活动相联系, 如某一堂化学课的教学目标;而广义的化学教育 目标指的是化学教育目标系统。 化学教育目标系统由一系列大小不等、但存在递 进关系的各个具体的化学教育目标组合而成,它包括化学教育的总目标、学年目 标、学期目标、单元目标、课时目标等各个层次,各个下属层次的目标都是其上 位目标的具体化。 化学教育测评的标准即制定标准的依据是化学教育目标。 保证实现测评功能, “外在的客观标准”保证客观性。 二、化学教育目标的分类 从实际的教育测验编制角度看,为了使测验编制科学化,仍需对作为测验目 标的教育目标进行分类。 (一)布鲁姆的教育目标分类【黄P108-112,张P55-57,刘P29-31】 1956年:《教育目标分类学;第一分册:认知领域》 1964年:《教育目标分类学;第二分册:情感领域》 20世纪初:行为主要心理学,20世纪50年代-70年代:认知心理学, 20世纪70年代人本心理学 行为目标:博比特-泰勒,缺点:唯科学(控制),还原,高级心理素质无 法用其。 1、认知领域[6个层级] 1)知识(knowledge):要求记忆个别事

我要回帖

更多关于 consistency 的文章

 

随机推荐