第一节 信度

一、信度的定义

测量的信度指的是测量结果的稳定性程度,是对测量一致性程度的估计。若能用同一测量工具反复测量某个人的同一心理特质,其多次测量结果之间的一致性程度就叫信度,也称测量的可靠性。

事实上,心理测量远比物理测量复杂得多,我们不大可能用同一测验工具去反复测验同一个人的同一心理特质。例如,将同一份智力测验短时间内反复试用在同一批人身上,其测验结果很可能会因练习或反复经验而使得成绩越来越好。因此,我们有必要寻求更为实际的可操作的办法。

信度是测量过程中所存在的随机误差大小的反映。信度只受随机误差的影响,不受系统误差的影响。系统误差虽然改变了结果的真实性,但每次都对测验结果产生恒定效应,没有改变结果的一致性与稳定性,因而,不影响信度。

下面介绍信度的3种彼此等价的统计定义。

定义1:信度是一个被试团体的真分数的变异与实得分数的变异数之比。即

公式2-1中rxx代表测量的信度,S2T代表真分数变异,S2X代表总变异数,即实得分数的变异。

定义2:信度是一个被试团体的真分数与实得分数的相关系数的平方。即

定义3:信度乃是一个测验X(A卷)与它的任意一个平行测验X'(B卷)的相关系数。即

其中,定义1和定义2只有理论意义,只有定义3才具有实际意义。

二、信度的指标

(一)信度系数和信度指数

信度系数是一种相关系数,是指同一受测者样本所得的两组资料的相关。是表示测量信度高低的指标,其阈值为(0,1),由于随机误差的存在,没有百分之一百准确可靠的测量,故r=1是理论上的值。信度系数有多种,一个测验可以有多个信度估计值,同一种信度系数也会因样本、测查时间不同而有多个。

此外,描述测量一致性程度的指标还可以用信度指数,它实际上是信度系数的平方根。

(二)测量的标准误

是一次测量中误差大小的客观指标,是指实得分数中有多少比例是由误差导致的。标准误的公式为

由公式2-4可以看出,标准误与信度系数呈负相关,信度越高,标准误越小,信度越低,标准误越大。

信度可以帮助进行不同测验分数的比较。具体办法是采用差异的标准误来进行差异的显著性检验,其公式为

公式2-5中,S为相同信度的标准分数的标准差,rxx和rxy分别是两个测验的信度系数。

值得注意的是,信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因,同时,获得较高的信度只是测验有效的必要条件而非充分条件。

三、信度的评估方法

(一)重测信度

用同一个测验,对同一组被试前后两次施测,两次测验分数所得的相关系数为重测信度。其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。

重测信度值越大,说明前后两次测验结果越一致,被试的心理特质受被试状态和环境变化的影响越小,该测验跨时间的稳定性越好。由于重测信度具有跨时间上的稳定性,重测信度较高的测验被用于预测人在短期内的情况是比较好的。重测信度的误差来源有:测验所测的特性本身就不稳定;成熟、知识的积累、联系和记忆效果这些变量都具有个体差异;此外,还有偶发因素带来的误差等。

重测信度的使用具有一定的前提条件:第一,所测量的心理特性必须是稳定的;第二,遗忘和练习的效果基本上相互抵消;第三,在两次施测间隔期内,被试没有获得更多的学习和训练。

(二)复本信度

根据一组被试在两个平行(等值)测验上的得分计算的相关系数即为复本信度。其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。如果两个复本测验是同时连续施测的,称为等值性系数。这个系数反映两个复本测验的题目差别所带来的变异情况。如果两个复本测验是相距一段时间分两次施测的,则称为稳定-等值性系数(重测复本信度)。题目差别、施测时的时间差别都会导致稳定-等值性系数不同。它是对信度最严格的检验,其值最低。

复本信度的误差来源有:非平行测验的两个复本之间的差异;被试的情绪波动、动机变化等;测验情景的变化,偶发因素的干扰等。

复本信度使用的前提条件:第一,要构造出两份或两份以上真正平行的测验(即A、B卷)。所谓真正平行,即复本测验之间必须在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似。第二,被试要有条件接受两个测验。

(三)分半信度

按正常的程序实施测验,然后将全部项目分为相等的两半(一般使用奇偶分半法),根据个人在这两半测验的分数计算其相关系数。有时也被称作内部一致性系数。

分半信度的计算方法与复本信度类似,但需要注意的是,被试在两个分半测验上分数的相关只是半个测验的信度,必须使用公式加以校正。当两部分方差相等(方差齐性检验呈齐性时),可以用斯皮尔曼-布朗公式加以校正

公式2-6中,rhh为两半分数间的相关系数,rxx为整个测验的信度值。

分半信度通常是在只能施测一次或没有复本的情况下使用。分半时操作方法有很多,如按题号的奇偶性分半、按题目的难度分半、按题目的内容分半等。同一个测验通常会有多个分半信度值。

(四)同质性信度

同质性信度也称内部一致性系数,指的是测验内部所有题目间的一致性程度。一致性有两个含义,即测验题目测的是同一种心理特质;所有题目得分之间都具有较高的正相关。

当一个测验具有较高的同质性信度时,说明测验主要测的是某一单个心理特质,实测结果就是该特质水平的反映;若同质性信度不高,说明测验结果可能是几种心理特质的综合反映。测量单一特性是同质性高的必要而非充分条件,同质性高是测得单一特质的充分条件。同质性的计算方法有四种。

1.库德-理查逊信度系数20(KR20)

公式2-7中,K是题目数,pi为第i题的通过率,qi为第i题的未通过率,S2x为整个测验的总分方差。库德-理查逊公式20仅适用于(0,1)记分的测验。

2.库德-理查逊信度系数21(KR21)

公式2-8中,各指标与KR20相同,只适合分别表示题目的平均通过率和失败率,只有当所有题目的难度接近时才适用。

3.克龙巴赫系数

库德-理查逊公式只适用于﹙0,1﹚记分的测验,若测验采用的不是﹙0,1﹚记分,库德-理查逊公式就不适用了,一般采用克龙巴赫系数。

公式2-9中,各指标与KR20相同,S2i是所有被试在第i题上的分数变异。库德-理查逊公式其实是克龙巴赫系数在﹙0,1﹚记分时的特例。

(五)评分者信度

评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。随机抽取部分试卷,由两个或多个评分者独立按评分标准打分,然后求评分之间的相关。当评分者人数为两人时,可用积差相关和等级相关;当评分者人数多于两人时,评分者信度可用肯德尔和谐系数进行估计;当评分者人数K=(3~20),被评者人数N=(3~7)时,可直接查W表检验,当实际计算的W值大于表中对应值时,说明评分者所得信度较高;若被评对象多于7个,则可计算X2值,作X2检验。计算方法为

一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。

四、影响信度的因素

测验的信度与很多因素都有着密切的联系,测验中的各种因素都有可能影响信度。主要的影响因素有:

(一)被试方面

就单个被试而言,被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态度(猜测)等会影响测量误差。就被试团体而言,整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度。

(二)主试者方面

就施测者而言,若不按指导手册中的规定施测,或故意制造紧张气氛,或给以暗示、协助等,都会影响测量的信度,导致测量信度降低。

(三)评分者方面

就评分者而言,评分者对测量特质的理解、对测量标准的把握、自身行为风格的严谨程度等都会影响测验的信度。若评分标准掌握不一,或前紧后松,甚至随心所欲,则也会降低测量信度。

(四)施测情境方面

凡是影响受测者的因素都可能影响信度。考场是否安静、光线和通风情况是否良好、所需设备是否齐全、桌面是否合乎要求、空间阔窄是否恰当等都可能影响测量信度。

(五)测量工具方面

测量工具是否性能稳定是测量工作成败的关键因素之一。一般情况下,试题的取样、试题之间的同质性程度、试题的难度等都是影响测验稳定性的主要因素。

(六)两次施测的间隔时间

计算重测信度和稳定性与等值性系数时,两次测验相隔时间越短,其信度值越大;间隔时间越长,各种影响测试结果的不确定因素就越多,误差可能越大,信度值就可能越小。

针对以上这些影响测验信度的因素,常用于提高测量信度的方法有:

(一)适当增加测验中与原题目具有良好同质性的题目,增加测验的长度。要注意:第一,新增题目必须与试卷中原有项目同质;第二,新增项目的数量必须适度,注意边际效应。

(二)将测验中所有试题的难度控制在中等水平,整个题量接近正态分布。也就是说,使测题的难度在0.5±0.2的范围,且中间难度的题目数量多,两端题目数量偏少。

(三)努力提高测验试题的区分度。测验项目能敏感地将不同水平的受测者鉴别出来,以确保整个测验的鉴别力。

(四)选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度。一定要弄清楚常模团体的年龄、性别、文化程度、职业、爱好等因素。只有各亚团体信度值都合乎要求的测验才具有广泛的应用。

(五)主试者规范操作。严格执行施测规程,评分者严格按照标准给分,施测场地按施测手册的要求进行布置,减少无关因素的干扰。

五、信度与测验结果的解读

(一)解释真实分数与实得分数的相关

信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。

(二)确定信度可以接受的水平

不同的测验有不同的信度水平要求,一般原则是:当rxx<0.70时,测验不能用于对个人做出评价和预测,也不能作团体比较;当0.70≤rxx≤0.85时,可用于团体比较;当rxx>0.85时,才能用来鉴别或预测个人成绩或作为。

(三)解释个人分数的意义

测量必然有随机误差,测量的标准误是一次测量中误差大小的客观指标,从信度可以解释个人分数的意义,这是测量标准误的应用。信度可以估计真分数的范围,了解实得分数再测时可能的变化情形。根据标准误的公式可以看出,如果知道了信度系数和标准差就可以计算出标准误,进而估计出真分数的可能范围,对团体中任何一个人的测验成绩作恰当的解释。不同的置信水平对应不同的置信区间,取95%的置信水平,其置信区间为:

也就是说,真分数大约有95%的可能性在实得分数±1.96SE的范围内波动,高于上限和低于下限的可能性只有5%。例如,在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?已知该智力测验的标准差为15,信度系数为0.84,套用公式得SE=6,即IQ=100±1.96×6=100±11.76,我们可以说这个被试的真实IQ可能落在88与112之间,即若再测一次他的智商,低于88或高于112的可能性不超过5%。

(四)比较不同测验分数的差异

信度可以帮助进行不同测验分数的比较。具体办法是采用差异的标准误来进行差异的显著性检验,参见公式2-5。

例如,某被试在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个分数都是以100为平均数、15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。其操作智商是否显著高于言语智商呢?

先计算出差异分数的标准误:SED=7.5。

在统计上,经常要求两个分数的差异程度达到0.05的显著水平,才能承认不是误差的影响。因此,将差异标准误(7.5)乘以1.96,结果为14.7,这表明个体在韦氏测验两半得分的差异高于大约15分才能达到0.05的显著水平,被试的差异分数110-102=8是不显著的。