如何从数据资产评估师考试考试的效度

[转载]ATA测评研究院院长:如何从数据评估考试的效度
  主持人:接下来登场是ATA测评研究院、中国教育测量学会刘颖女士,刘颖女士获邀担任国际协会ATP主讲嘉宾,刘颖女士今天所演讲主题如何从数据评估考试的效度,请大家欢迎!特此更正一下,今天我们会场来到700多位嘉宾。
ATA测评研究院院长刘颖在第四届国际考试理论与测评技术研讨会上发表演讲
  ATA测评研究院院长刘颖:各位嘉宾大家下午好,能够第四次登上第四届国际考试理论与测评技术研讨会舞台我现在感到无比开心和兴奋,今天见到有700多名嘉宾参加我们研讨会,而我们第一届只有一百人,足以证明越来越多人关注我们考试,关注我们的测量,相信有了你们的关注我们中国考试测量这个行业会越办越好,越做越规范,越做越科学。
  从前面几位嘉宾的演讲和我的演讲的主题大家可以看到今天我们演讲的关健词,应该是考试效度,我们ETS的嘉宾他从ETS考试内容的设计给我们展示一下如何保证一个考试和一个测量的效度,我们SHL集团嘉宾从个性测量角度诠释考试效度如何去保证,大家从我的PPT上可能不难发现我将从数据的角度来跟大家一起探讨我们如何保证考试。很多人问数据跟效度有什么关联,我知道数据可以算效度,但是这个数据除了能算效度之外,对考试测量保证又能体现在哪些方面呢?
  我今天将从以下四个方面给大家阐述考试的数据和考试效度他们之间有什么样的关系?有什么样的关联。首先我们来看看效度,其实这个词语对于在座各位嘉宾一定特别不陌生,因为是政府机构朋友见到我都会问刘老师这个效度我们如何去保证呢?企业HR见到我或者采购一个产品的时候都会问这个产品效度到底如何啊?什么是效度,我简单给大家打一个比方,假设我们把考试比喻成一个用飞镖来射这个靶子,假设这个人考的能力就是这个飞镖中间的红点,用一个考试考四次去测这个人的能力,但是大家看到这第一幅图,四次考试考了这个人不同的四个方面的能力,而且恰恰没有一次考到我想要考的能力,所以这肯定是一个效度不高的考试,再来看一下还有一些考试是这样的,我们想考这个红点的能力,但是我们考了他四次都是非常稳定的,都测出他的能力,但是测的并非红点的能力,而测的旁边的能力,经常发现这样的例子,比如用一张考卷想要考一个人的数学的能力,但是由于我们试题题目出得太过复杂,本身阅读起来就有一定难度,本身考数学的题目,变成考考生语文的阅读能力,所以这也就不是一个不好的考试,什么是效度高的考试,无论考多少次,都能够恰好命中想要考的能力,考的素质,或者想测量的个性。
  我们来看一个公式,从测量学角度来说,其实效度非常简单,每个人无论做个性测评也好,你做考试考量也好,最后大家肯定都会知道一个分数,比如说你高考考了90分,数学考了90分,这个90分代不代表你实际数学水平呢?其实未然,也有可能今天是超然发挥所以考到90分,也有可能今天发挥失常,或者老师出题方向和你复习方向不一致,造成你的分数比以前模拟考试都要低,我们现在拿到分未必是这个人在这方面真正能力或者真正性格特点,我们拿到分数是有真正的能力和我们测量的考试的误差相加而得的。这个相加不一定是加,也有可能是减,所以所谓的效度一个考试的实际能力和我拿到的分数之间越接近,那么这个考试的效度越好,也就是说误差越小,考试的效度越好。其实刚才几位嘉宾已经跟大家介绍了,其实所谓的效度就跟我们医生说药物的疗效和我们机械工程师说机械的效能是一样的,它是指考试或者这个测量能否有效达到测量、测试的一个目的。说到这一点,大家要分清楚,其实今天标题是说考试和测量,其实考试和测评是有一定的差异的。很多的嘉宾其实可能之间也都比较困惑于这样一个概念,其实测评考试,考试我们更多的用在测评一个人的能力,也就是考试的分数是有高低之分的,但是常常说的测评,或者大家听得比较多的个性测评,其实刚才SHL集团嘉宾讲的没有好坏之分,看每个人特点,特长,个性特征,性格特征是什么,所以他们之间考试,个性测试考量的目的就会是不一样的,而恰恰在考试里面其实有的时候不同的考试,他的考试目的也不一样,比如说有些考试像高考是评估一个考生的能力,还有一些考试比如说计算机操作能力的考试,并不是考计算机的能力,可能更多看操作计算机熟练程度,我们评估一个考试效度,不能只看有没有有效把一个人的能力测出来,还要看是否达到另外一个目的,比如技能的熟练度是否考出来的。对于个性来说我们测量目的为了客观了解考生个性特征,这个测试是否有效度,看能否把人的性格特征,他的性格准确的测量和评估出来。
  大家肯定会说没有,我们见到很多机构给你呈现效度的报告,没有一个个性测试是能够达到1.0的效度,效度从0—1,因为有大量的因素会影响着我们考试的效度,有四个方面因素。
  第一个方面我们试题的形式,用客观题考,还是主观题考,或者动态模拟题考,这个对考试影响都会很大。比如我举一个很简单例子,在座很多HR,你想测一个人创造能力如何,用一道选择题如何,这个显然无法测量出一个人创造力水平,试题的形式决定了我们的效度,你想考他的数学能力千万不要把试题描述搞得晦涩难懂。大家都是考试过来的,大家不要看选择题,其实选择题是最难出的一种题型,除了要编写正确答案之外,还要编若干个干扰项,干扰项直接决定考试的有效性,很多的考试的结果我们一分析,选择题的选项很多的选项没有干扰性,根本没有考生去选,所以就是一个无效的没有意义的选项内容,当然试题的难度也影响着考试的效度,一个考试不能追求越难越好,当然高考选拔类的考试会偏难一点,但是绝不可以越难越好,因为大家都很清楚,如果特别难的考试,一个考生都考不过,这个试卷也变得无效的。
  尤其在个性测试里,试题的表面效度也非常重要,我记得我们有很多企业愿意去测一个人个性的时候看看他的职业道德,职业道德里面经常包括一个人会不会酒后驾车,比如一个人会不会骂人,会不会出语伤人等等,如果你直接去问他:“请问您会酒后驾车吗?”我想在座各位嘉宾所有人应聘都会回答“不是”。太容易让人一眼看出他想测什么不良的试题,其实试题会影响考试的效度。
  那么试卷,若干个试题组成的试卷同样会影响考试的效度,如果一张试卷有些题大多数后面的试题都没有人做,大家来不及答,这也许就是一个不好的试题的组合,试卷的结构同样影响我们考试的效度,我们经常跟很多考试专家说,我们在组卷的时候一定要注意把容易的题目放在最前面,难的题目放在最后面,为什么呢?上来考生先答最难的题会影响他的题,导致他紧张,不让他正常发挥,所以试卷的组合,试卷的结构影响考试的效度,当然这个试题分值设计,如果我用五套试卷考一些学生,比如高考我用五套卷子考,一定要保证五套卷子之间难度几乎相等的,千万不要有的难有的容易,这个考试就是低效度的考试。
  考试过程中的实施管理同样非常重要影响我们考试的效度,比如命题过程中如果有命题专家泄题,储存没有安全储存试卷,考试过程中有作弊的情况,以及考后主办方不能有效设置考试分数线等等这些都会影响考试的效度。当然考试最重要的主体是考生,考生作弊,考生在个性测试中做假,比如经常企业会看到有些考生在答个性测试的时候,会先想一想,我应聘的是一个销售岗位,销售岗位的人一定要能言善辩,一定要很会和别人沟通,凡是涉及这方面就要答“我很符合”,这叫个性测试做假,等等这些方面都会影响到我们考试或者是测量的一个效度。
  接下来我们把第二个关健词拿出来跟大家分享,就是谈一谈我们数据的问题。来见识一下数据的威力,现代社会是数据来说话的社会,随着计算机的推进,统计学方法日益完善,现在不要小看你所搜集出来的一系列的数据,它在我们眼中是个宝贝,可以用各式各样方法对数据进行各式各样挖掘,可以得出大量有效的信息提供给我们考试主办方,或者我们的HR。现在比较多的用在我们考试测量里面的统计方法都有哪些呢?我在这里PPT上都给大家列出来,比如大家熟知的方差分析,多元回归方程,结构方程模型,因素分析,包括很多的粗糙集与神经网络,决策树分析,聚类分析,判别分析,时间序列分析等等,都引入考试测量领域,为我们考试测量效度分析提供有利的工具。大家其实可以看到数据就像潘多拉的盒子,摇一摇,通过各种数据分析方法可以得到很多有用信息。
  当今时代千万不要忽略数据,数据太有用了,因为可以告诉你考试成绩测评结果,告诉你不同地区考生差异,告诉你考场有没有异常信息,告诉你分数合成是否合理,告诉你试题试卷是否有效。接下来切入真正的考试的数据和我们考试的效度之间到底有着什么样的联系呢?
  先来看看数据分析如何直接进行效度的评估,其实用数据分析评估考试,或者一个个性测试的效度大概从两个方面着手,第一个方面叫直接效度的评估,我考后或者我试考得到一批数据以后,直接通过数据分析可以告诉你你的考试是否有效,你的考试是否达到你的目的,这里提示更多的叫做结构的效度和效标的效度,其实我们数据分析给我们考试提供间接评估的。如果用数据分析进行直接评估呢?假设你的一个考试,无论是招聘考试,或者职业资格考试,一定都有你想考察的能力或者素质,假设一个考试考了三个方面的能力,我们可以把你三个方面的能力所用的考题建立这样一个叫做结构模型,用不同能力测试题目,只要后面有了一个数据就可以计算我的数据是否能支撑、支持我的这样一个模型的结果,考试数据内层结构是否有效,是否合理,我们常用拟合指数,大家可以看到下面表格列出CFI,TLI等等,CFI越接近于1说明越有效,越接近于0表明越不合理。这个图上比如能力一对应的试题,上面还有一个0.65的系数,是这个试题对于测量这个能力的贡献率,这个试题对于测量能力1起到65%这样的贡献率,也就是说还是不错的。相反你看试题4,只有0.15,这个试题对于测量能力1只起到15%作用,没有发挥太大测量效率。这些指标肯定各位嘉宾不难看出,第四道题也许不需要用它,包括能力3第八道题可能不一定是很好的试题。从直接的结构方程模型可以评估一个考试,一个测量它的效度是如何的。
  第二道叫所谓的效标关联测评,一个企业要招人要有考试招聘测评,考过这些人当他进入岗位以后,让岗位主管评估一下看看他在这方面能力水平到底如何,比如这个企业招十个人,有一个得分排序,未来企业工作以后领导给的工作排序是完全一致的,也就是相关度非常高,这一定是非常好的,非常有效的考试,或者是测评。但是相反如果说一个极端的情况,一考下来说这个人能力很强,但是实际工作中这个人能力很弱,这一定不是良表,所谓很好的考试。我们把实际成绩和实际工作绩效之间做相关,相关越高,考试越有效,测评越有效。有一个企业用了两个测试进行人才选拔和效标之间的效度,红色散点图越接近于一条直线,第二个测试是更有效的测试。其实数据分析更多对效度间接的评估,从试题,试卷和考试组织方面都可以展开。
  首先我们看如何通过数据分析来评估试题的有效性,我给各位嘉宾展示一个实际考试难度分布图,大家可以看到我用黑色的圈画出来的有很多中间的一部分试题,它的难度值特别特别低,也就是说它难度非常高,这就说明这套试卷里面是偏难的,有很多考生几乎完全答不出来,这是经常做的难度的分析。检验一个试题是否好,是否有效?我们更常用的数据分析的方法叫做区分度的分析,说白了这套试题能否把水平高的人和水平低的人区分开来,如果一个试题把水平高和低的人区分开来,这就是一个有效的试题。大家请看我这套例子,大家看到很奇怪,画出来的圈可以看到有很多题,每个点代表一道试题,有很多的题区分度居然是负值。区分度是负值什么概念呢?就是说考试成绩越高的人越答不出来这道题,大家不言而喻,这个试题一定是有问题的试题,是无效试题,因为他做了一个反向的区分。通过数据分析可以检测出哪些试题区分度是不行的。
  数据分析更常做的是选择题的选项分析,分为高分组,和低分组,总分排在前25%的考生,后面是后25%的考生,第一道题是A,大多数考生选的B,当我们数据分析发现这个问题的时候,就会提示考试主办方,咱们这道试题是否出错了,为什么大多数考生都会选择B,再看第二题,正确答案是B,但是我们看确实很多考生选了B,但是很多嘉宾肯定发现了,高分组也就是最后成绩得高分很多考生9个人他们选择了选项A,我们这个时候发现这个问题的时候,就会告诉主办方,是不是A也有可能是正确答案,为什么这么多高分组考生也会选A。再看第三道题,正确选项是B,但是我们看低分组和高分组选B的人数是一样的,也就是说不具备很好的区分效果。我们发现每一个选项考生的选择概率无论是高分组,还是低分组都是25%,各位嘉宾这提示一个什么信息?其实说明这道试题不是说你区分度很好,这道题干扰项很好,还是所有人不会答这道题,大家都在猜,也就是呈现各25%,所以未必这是一道好的试题。
  其实我们数据分析可以对试题另外一个方面DIF进行检验,有些试题有些时候出的时候有点缺乏公平性的,尤其是很多政府主办方提供大型的国家的统考,人群里面经常涉及到农村的考生和城市的考生,很多农村考生因为他不了解地铁,他不了解一些最先进的通讯设备等等答不对试题,而城市考生对这些了如指掌,就造成这个试题对不同类型考生之间不公平,我们测试考生项目功能差异,图二这套试题出现了考生项目功能差异,应该说不同群体考生对一道题反映应该差不多的,但是图二显示不同考试群体在这道试题上反映出现比较大的偏差,一条呈现了实线,另外一个群体呈现虚线的差异。美国每年都经历着巨大的挑战,因为经常有黑人考生状告考试主办方,这就是试题功能项目类型的差异。
  大家看一下这是一套20道题试卷答题情况分析,可以看到这是一个难度值的分析,最后四道题难度值均为零,意思是没有人答对,不是说这个题难,我们请主办方看一看,到底有没有人在这个上面做答,一检查根本没有人在这道题上做回,提示一个信息我们考试量太大了,后面17—20考生没有时间去做答,所以这个是我们通过数据分析检验试卷有效性一个很好的方法。假设这个考试考了三个方面的能力,第一道能力四道题,第二用四道题,第三个用7道题,我们通过重新组合看到概率变化情况看看题量设置是否合理,用三倍题量进行检验,圈圈画出来无论怎么变化题量的组合,这个概率几乎稳定的,说明考试题量,考试试题结构是有效的。我们发现有两题目试题相关性达到0.985也就是非常相关的,大家读两道试题不难发现,第二道试题对第一道试题回答是有暗含关系,通过数据分析帮你找出哪些试题之间是有暗含关系,这些试题不应该同时出现在这套试卷里,尤其是答案,这个题目的题干对另外一道题目选项有提示作用。
  接下来再看一个数据分析评估有效性的例子,一个企业考了三个科目考试,考了英语和职业能力和综合知识,三个考试平均分英语是36分,职业能力63分,综合知识34分,机构说每个人进入下一部面试把三科分数进行直接相加达到某一个值就可以进入下一轮面试。各位嘉宾想一想,这种分数合成的方法对不对?有没有问题?其实大家不难发现有很大的问题。因为我们可以看到这三个考试他们的难度差异一定是非常大的,否则他们之间的平均分不会相差这么大。对于三个难度差异这么大的考试,直接把考分进行相加,这对有些考生是不公平的,比如英语很难,综合知识也很难,我考了很高的分数,但是职业能力考了比较低的分数,和另外一个考生,在英语和综合知识方面考得比较低,但是职业能力特别高,这样两个人总分一样,应该是第一个人能力更高一点,因为英语上考高分,综合知识上考高分非常不容易,不应该三门分数直接相加。高考曾经实施过标准分相加的制度,但是现在又停掉了,其实标准分说白了就是把每门科的排名进行相加,每门课上排名进行相加就屏蔽掉每门课之间难度的差异。
  数据分析对我们组织实施有什么样的作用?这是某一次考试以后两年,这个机构组织了两年考试,这是各个省在29个省实施考试,各个省的平均分,两年对比的数据,这个图上发现一个很奇怪现象,第16个省份在08年和09年平均分之间出现显著差异,这提示大家什么样信息?我们酒会告诉主办方请您去合适一下,因为一般来说在两个年份平均分差异不可能差别这么大,09年这个省份也不可能平均分比其他省份高出这么多,这是一个奇怪的数据显示,提示主办方追踪第16个省份是否在监考过程中非常严格,有没有出现试题泄露等等这样的问题,数据分析可以发现很多考试组织管理实施过程中的漏洞。
  刚才讲了很多,我们说数据分析可以去帮助进行效度的直接和间接的检验,但是很多嘉宾说那么数据分析对于我们效度的提升有没有帮助呢?接下来我谈谈其实数据分析对于直接提升考试效度也是有非常大作用的,这个作用体现在三个方面。
  考试数据分析,或者是我们数据测量分析,可以使得考试测评更加人性化,可以提升考试测量的精准度,更可以提升考试测评结果的效用。其实数据分析和挖掘可以使考试或者测评更加人性化。体现三个方面,第一个现在已经有了自适应的考试,还有了认知诊断理论为基础的考试,甚至还能给每个考生提供或者主办方提供非常有效测评报告,这里我想谈谈自适应考试,这应该是将来计算机化考试发展一个趋势。大家都知道从小考到大,所有人只要参加同一个考试,一定是考同一张考卷,但是大家有没有想过这样的考试其实是一种资源的浪费,时间的浪费对于考生来说,对于能力很强的考生来说,我没有必要会答那些很容易题目,对于能力很差的考生没有必要答很难的题目,但是恰恰一张考卷必须从难到易都答出来,而自适应考试可以根据你实际水平给你提供一套适合于你的一套考题,这就叫自适应化考试,流程大概是这样,一个考生在考试过程中,当然计算机化考试才能实现,纸笔考试不能实现自适应化,通过看他答对情况,反映模式估计能力的水平大概如何,如果都回答不对中等难度试题把难度降一降,如果都答对了难度升一升,在不断升和降之间最后达到统计估计精度之后就可以准确知道这个人能力水平在什么样范围之内了。大家可以看到一个考生考哪些题目完全自适应化,完全跟他自己的有关联的。所以这样的考试我们其实大家有些朋友肯定参加过,我们以前GRE考试就是用的这样一种模式,节省了很多时间的成本。通过数据可以给主办方呈现考生能力的诊断报告,我们可以告诉HR,可以告诉主办方,每个考生在这个方面排名如何,在不同方面能力如何,以及和平均水平之间的差异等等。
  第二谈谈数据挖掘更可以帮助提升考试或测评的精准度。现在随着计算机化考试水平的提升,已经可能对在线能力的确认,可以通过计算机捕捉一个人,比如你的操作习惯,喜欢点右键,点鼠标打开,还是直接去菜单下拉点打开,每个人操作电脑的时候都会有一套你的行为习惯,计算机通过后台记录你这些行为习惯的数据,就可以对你的身份基本做一个确认,尤其在线学习里面这个作用体现得非常深刻,在线学习的时候当我发现你的行为模式发生巨大变化我数据就可以告诉主办方,或者我们组织机构说,这个人是在请人代为他在学习,或者这个人在请人替考,这就是心理指纹技术。同时可以做试卷等值处理,可以对主观题进行自动判分,我们托福考试等等都已经可以实现作文自动判分,我们国内自动判分技术随着数据分析技术不断提升,随着自然语言技术不断提升已经慢慢实现主观题自动阅卷和判分,这些和数据分析相关联。
  数据分析可以帮助考试测评作假与作弊判别,有了数据分析方法可以知道一个考生是否在作假或者作弊,先提一提试卷等值处理,很多主办方在考试过程中不免会用到很多套试卷很多套试卷为了保证试卷之间等值性,难度之间均等性,最好要做等值处理,如何做等值处理?其实很简单用一种办法,我拿一套卷子作为一种标准卷,其他的试卷里面从标准试卷里面抽一到试题放在其他试卷里面,通过图上可以看到标准试卷里面的试题成为所有试卷之间共同的试题,我们称之为锚题,通过这样的桥梁,通过这样的计算方式直接等值到标准试卷上的得分,无论是考标准试卷,还是考下面一二三四套卷子,都可以转化为一个标准试卷的得分,考第二套卷子,就知道考标准试卷的话可以得多少分。
  刚才提到通过数据分析鉴别一个人是否在作假,在个性测试里面经常会用到。其实很多时候会事先请一些来真实的作答,就是诚实组,大家看左边这张图,当我搜集到诚实组反映模式之后,我在企业招聘时候请外面应聘者做测试的时候,可以同样算出他做反映的模式,我们可以看到当考生是作假的时候,作假组的数据和我诚实组数据之间会有很大的差距,我们用一种方法叫做MRM分析方法,可以看出哪些人答题模式反映模式跟诚实组之间差异非常巨大,对不起告诉HR这个人测试数据不一定相信他的结果,因为他是在作假,这个是通过数据分析来实现的。同时考试作弊现在也可以通过数据分析来检验,通过数据分析来评估,一个人考试作弊的概率,大概有两种方法,第一种叫做个人拟合法,第二种叫实施法,或者反映模式法。第一种所谓个人拟合法,以前考试只关心一个人是否答对,不关心这个人回答这套试题时候反映模式,假如说以前考生容易题答不对,但是难题都答对了,我们算一个总分就OK了。但是自从MRM分析理论推出来之后,我们看到一个人答题反映模式如何变化的,一个正常人只要考同一个方面能力,不应该说容易题全部答不对,难题都答对,这是异常的反映模式。一个人反映模式非常不正常,或者他的反映模式跟别人反映模式有决大反差的时候,我们就可以认为这个人考试一定是可能在作弊,同样方法,如果我们发现有两个人他们对试题的反映模式几乎是一模一样的,对每道试题反映模式几乎是一样,简单来讲,他无论是对的是相同的,而且错的完全相同,就可以说这两个人之间作弊概率很大,现在美国考试已经通过这种数据分析甄别考试作弊概率,如果达到一定指标,主办方有权要求考生进行再一次测试,前提条件是跟考生之间签一个约定,如果当我检测到你跟某个人成绩相关度达到多少的时候,反映模式相关到什么程度的时候,你必须来重新进行测试。这个是我们数据分析来检测考生作弊。
  同样数据分析可以提升考试测评结果的效用,用来行业或企业的Benchmark设定,可以诊断管理问题或提示培训重点,帮助企业做最优化人才的配置。这个Benchmark是所谓的标准,通过数据库告诉企业什么样的岗位,什么样能力的人必须在托业上考到多少分,对于海外销售人员又应该达到多少分,当然有大量的数据以后同样可以建立行业的Benchmark标准,我们通过考试数据分析,判断考生成绩受地区影响的因素。通过决策树分析发现,考生成绩主要受地区学历和岗位类型的影响,因此这家企业培训中间重点对有问题岗位这些人员进行着重的培训,当然他们在绩效考核,在人员招聘的时候也更多的参考了这个决策树分析的结果。
  最后看人工神经网络分析方法,可以帮助企业数据分析进行人员安置的编排,大家请看我下面这张表,假设一个企业有20个岗位,同时这个岗位上又有20个人,如何把这20个人放在最合适他的岗位上去呢?当然前期可以做心理测试,可以做各种岗位的分析,分析之后,我们可以通过模糊数学,以及人工神经网络的分析,建立20乘20个神经网络点,通过统计学各种算法,可以把20个人放在20个岗位中,这样的放置方法是最科学,最胜任,最有效,从前面这些讲解不难看出数据太重要,当前是一个数据来说话的年代,通过我们手中的数据可以发现太多信息,帮助我们大大提升评估考试和测评效度。
  讲到这里今天研讨会也要结束了,非常巧合在一个月以后的今天,大家知道农历新年了,在这个会议最后结束我谨代表ATA公司,代表今天所有演讲嘉宾,祝愿大家在接下来的虎年里,在生活,在事业方面都能够虎虎生威,谢谢大家!
  主持人:非常感谢刘颖女士精彩演讲,在短短几个小时里,我们共同分享了来自国内外考试与测评领域,知名人士,权威专家,不同角度分析了最新的考试与测评信息,希望各位嘉宾精彩演讲能为来宾带来帮助和启发,ATA公司将与各位来宾继续努力为中国考试与测评技术领域继续贡献自己的力量,最后再次感谢各位嘉宾的光临,感谢各位的精彩演讲,第四届国际考试理论与测评技术研讨会现在结束!谢谢大家,希望我们明年再见!
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。         
您现在的位置:&&>&&>&&>&&>&正文
案例控讨之如何保证能力素质测评的信度和效度
来源:  【】 
  人才测评的主要工作是通过各种方法对被试者加以了解,从而为企业组织的人力资源管理决策提供参考和依据。经过长期的发展和适应不同情况的需要,形成了多种人才测评方法。而人才素质测评作为一项重要的人事技术,已经为越来越多的企业人力资源部门所接受,而如何保证能力素质测评中的信度和效度,也越来越受到关注。下面,就具体案例讲讲如何保证能力素质测评的信度和效度。   一、案例背景   N公司是一家外资工程管理公司,成立于1998年,总部设在上海。随着WTO的开放和工程项目的增多,工程公司在国内如雨后春笋般成长起来,就此拉开了人才竞争的序幕。尤其是上海,工程项目管理人才的争夺十分激烈,N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力,保留现有中高层骨干人才,并让他们“适人适位”,&N公司请来了北大纵横管理咨询公司,希望通过专业评估解决这个问题。   二、建立人才能力素质模型并实施测评   (一)中高层能力素质模型及测评方法的确定   鉴于本次测评的对象是N公司的中高层管理人才和精英人物,测评的目的是为了保留人才、适人适岗,因此经过双方共同探讨,项目组在北大纵横经理人能力素质指标体系的基础上,结合N公司的实际情况,选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时,采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法,来确定各测评因素在管理素质和业务素质上的权重。   通过向N公司老总介绍人才测评的方法及工具,大家一致选定评价中心技术进行本次人才测评,并主要运用三类测评工具:心理测验、深度面谈和情景模拟测验。   (二)测评实施程序   1、设计测评题目。咨询顾问和N公司相关人员一起,围绕测评因素,结合N公司实际情况进行测试题目的设计,并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试,人机对话;深度面谈设计了20个题目,涵盖了测评的各个维度;情景模拟采用案例分析和主题演讲两种测评工具,其中案例分析题库包含12题,主题演讲题库包含15题,被测人员可以从各题库中抽取一题进行测试。   2、成立测评小组。其中,测评小组成员由N公司内部专家、外部专家,以及北大纵横项目组组成。在测评实施前,对测评小组进行培训,使大家能全面了解测评的程序、评分标准及方法。   3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问,被测评人根据提问回答问题,与测评小组进行双向沟通后,由测评小组根据评分标准对被测评人的表现现场打分,填入评分表;16PF人格要素测试要求被测试人进行40分钟的人机对话,由测评小组保存有效答卷。   由于不同的测评者其衡量的尺度会存在差异,为保证各个被试者成绩排序的正确性,在测评时,向测评者提供“成绩比较表”,供其记载各个被试者的各项测试的评分,便于他们进行比较。   4、分析测评结果并统计成绩。采用肯德尔和谐系数法对每个被测评者在各个测评要素上的得分进行评分者信度分析,并结合各测评要素在管理素质和业务素质方面的权重,计算出被测评人在业务素质和管理素质上的得分。测评结束后,测评小组对被测人员进行了问卷调查,了解他们对测评效果的看法。1&&&
文章责编:gaoxiaoliang& 看了本文的网友还看了
?&&()?&&()?&&()?&&()?&&()?&&()
在线名师:   国家劳动部认定的企业人力资源管理师国家职业资格考试培训师资...[]
还没有试卷
还没有试卷
? ?   ? ?   ? ?   ? ?   ? ?
? ?   ? ?   ?
?   ? ?    ? ?   ? ?   ? ?   ? ?
? ?   ? ?
实用工具 |
| 大全 | 大全
     |
版权声明:如果网所转载内容不慎侵犯了您的权益,请与我们联系,我们将会及时处理。如转载本内容,请注明出处。
Copyright & 2004-
 网 All Rights Reserved 
中国科学院研究生院权威支持(北京) 电 话:010- 传 真:010-

我要回帖

更多关于 考试效度 的文章

 

随机推荐