第二节 效度

一、效度的定义

效度是指一个测验或量表实际能测出其所要测的心理特质的程度。在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或称有效方差)与总方差之比,即

公式2-12中,rxy代表测量的效度系数,S2v代表有效变异系数,S2x代表总的变异系数。

为了准确理解效度的概念,我们要注意:第一,效度是一个相对的概念。每个测量工具都有自己的目的,测验都是为了特定的目的而设计的。当使用量表的功能与量表本身的目的一致时,才能保证量表的效度在相对较高的水平。内隐特质是通过外显行为间接测得的,因此心理测量的效度只有程度上的差别,不可能百分之百准确,也不可能为零。第二,效度是测量的随机误差和系统误差的综合反映。只要出现了测量误差,效度必受影响。第三,判断一个测量是否有效要从多方面搜集证据。

二、效度的评估方法

测量效度指的是测量结果所达到测量目的的程度。就这方面而言,测量效度的估计在很大程度上取决于人们对测量目的的解释。比较常见的解释角度有三种:一是用测量内容来说明目的,为内容效度;二是用心理学上某种理论结构来说明目的,为结构效度;三是用工作实效来说明,为实证效度,也叫校标关联效度。

(一)内容效度

内容效度指的是测验题目对有关内容或行为取样的适当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个测验的内容效度就是去确定该测验在多大程度上代表了所要测量的行为。因此,要确定一个测验的内容效度必须具备两个条件:即要有定义完好的内容范围;题目应是所界定的内容范围的代表性取样。

内容效度主要应用于成就测验,也适用于某些用于选拔和分类的职业测验,不适用于能力倾向测验和人格测验。但是内容效度缺乏理想的数量指标是它最突出的问题。另外,内容效度经常与表面效度混淆。表面效度是由外行对测验作表面上的检查确定的,它不反映测验实际测量的东西,只是指测验表面上看好像是测量所要测的东西;内容效度是由够资格的判断者(专家)详尽地、系统地对测验作评价而建立的。最高行为测验注重表面效度,测典型行为时则应该把表面效度降低,尽量不让被试知道测试的内容,这就是内容效度与表面效度的区别。

内容效度的评估有以下几种方法:

1.逻辑分析法

也称专家判断法。就是请有关专家对测验题目与原定内容的符合性做出判断,看测验的题目是否代表规定的内容。如果专家认为测验题目恰当地代表了所测内容,则测验具有内容效度。这种估计效度的方法,是一个逻辑分析的过程,所以内容效度又称“逻辑效度”。

为了使内容效度内容确定过程更为客观,弥补专家的不足,可采用如下几个步骤:第一,确定测验内容的总体范围,描述有关的知识与技能及所用材料的来源;第二,编制双向细目,确定每个题目所测的内容,逐题比较自己的分类与测验编制者的分类,并作记录;第三,制定评定量表,从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分类的比例以及题目形式的适当性等方面,对测验做出总的评价。

2.统计分析法

该方法包括:对评分者一致性的评定、两个测验复本的相关性和课程内容的学习等分析、再测法等。

3.经验法

即通过实践来检验效度。

(二)结构效度

结构效度是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。结构是指用来解释人类行为的理论框架或心理特质,是心理学中抽象的假设性的概念、特性或变量。

结构效度具有以下几个特点:第一,结构效度的大小取决于事先假设的心理特质理论。具有不同理论构思的测验,其结构效度是无法进行比较的。第二,结构效度有时很难获得。当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测量的结构效度。第三,结构效度没有单一的指标,是由各方面的证据累积起来进行评价的。

与内容效度不同,结构效度的确定首先需要对所研究的结构或特质进行界定,提出理论框架,并把这一理论假设分解成一些细小的纲目,再依据理论框架提出各种可能的有关假设,最后用逻辑或实证的方法验证假设。

要确定结构效度可以有以下几种方法:

1.测验内方法

主要包括内容效度、被试解答测题时的反应过程和测验的同质性。内容效度高,实质上,也说明结构效度高;若有证据显示某一题目的作答除了反映所要测量的特质外,还反映着其他因素的影响,则说明该题没有较好的体现理论构想,该题的存在会降低结构效度;若有证据表明该测验不同质,则可断定该测验结构效度不高。

2.测验间方法

主要包括相容效度法、区分效度、会聚效度及因素分析法。相容效度法主要计算新的测验与测量同一特质的、已知效度较高的原有测验的相关系数。如果两个测验的相关系数高,则新的测验有较高的效度。区分效度的基本思想是如果两个测验是测量同一特质的,即使使用相同的方法进行测量,它们之间的相关也应该很低。会聚效度认为如果两个测验是测量同一特质的,即使使用不同的测验方法,它们之间的相关也应该是高的。因素分析法是通过因素分析找出影响测验的共同效度,测验分数总变异来自有关因素的比例,即是该测验结构效度的指标。

3.考察测验的校标关联效度

从校标的性质与种类来推论测量的结构效度。有两种做法:其一是依据效度把人分为两类,考察其得分差异;其二是依据测验得分把人分成高分组和低分组,考察这两组在所测特质方面是否有差异。

4.多种特质-多种方法矩阵法

其原理是若用多种极不相同的方法测量同一种特质相关很高。若有多种特质都接受了多种方法的测查,就可以分别计算出任意两种方法测量同一特质的相关和测量不同特质的相关,以及任意两种特质接受同一方法和不同方法的相关,并以这些相关系数为元素构成一个矩阵。

(三)校标关联效度

效标效度又称实证效度,反映的是测验预测个体在某种情境下行为表现的有效性程度。其中,被估计的行为是检验效度的外在标准,简称校标,也就是独立于测验并可以从实践中直接获得的我们所感兴趣的行为。根据效标效度资料收集的时间差异,可以分为同时效度和预测效度。对于同时效度,测验分数与校标资料是同时收集的,而预测效度中,先获得测验分数,隔一段时间后,再收集校标资料。心理学中常用的校标资料有:学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评定等。

一个好的效标必须具备以下条件:第一,有效性。校标必须能最有效地反映测验的目标,即效标测量本身必须有效。第二,可靠性。效标必须具有较高的信度,稳定可靠,不随时间等因素而变化。第三,客观性。效标可以客观地加以测量,可用数据或等级来表示。第四,实用性。效标测量的方法简单,省时省力,经济实用。

效标效度的评估方法有很多种,通常使用相关法、区分法、命中率和功利率等方法。

1.相关法

相关法是评估效标效度最常用的方法,它是求测验分数与效标资料间的相关。

2.区分法

其基本思路是根据校标测验的成绩把被试分为两组,然后分析这两组被试原来接受测验的分数差异,若这两组人的测验分数差异显著,则说明该测验有较高的效度。

3.命中率法

命中率法是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。四种情况:预测成功而且实际也成功;预测成功但实际上失败;预测失败而事实成功;预测失败且实际上也失败。称正确的预测为命中,不正确的预测为失误。命中率高低常随划分测验分数成功与失败的临界分数的高低而变化。临界分数越高,正命中率也越高;反之,临界分数越低,则正命中率也越低。

4.功利率

即对使用测验所需的费用和所得到的收益进行比较,看是否利大于弊。

三、影响效度的因素

凡是与测量目的无关的稳定和不稳定的变异都会影响测量的效度。主要有:

(一)测验的构成

测验中所用词汇和句型不能过于困难;题目的表达要清楚明了;所编制的测题要适合所要测量的学习结果;测验中不能提供额外线索;测题的编制要合理;选择题的正确答案不能有明显的组型;测题的难度要适当;测题数目适当。

(二)测验的实施过程

测验在实施过程中,如不遵从指导语的要求,出现意外干扰、评分记分差错等,都会降低测验效度。

(三)接受测验的被试

对单个被试而言,被试的应试动机、情绪、态度、身体状态等都会影响测量信度,造成较大的随机误差,进而影响测量的效度。对于被试团体而言,样本代表性好,同质性好,有利于提高测验效度。

(四)所选校标的性质

测量行为与所选校标的相似性越高,效度越高。校标本身的测量越可靠,效度就可能越高。此时有一个因素需要注意,测验分数与校标行为之间是否是线性关系,如果不是,求皮尔逊积差相关就会得出错误的效度结论。

(五)测量的信度

任何误差的增加都会降低测量的效度,所以在考虑测量效度时,要注意测验的信度,信度不高的测验不可能具有很高的效度。信度高是效度高的必要而非充分条件,一个测验效度高,其信度必然也高;但一个测验信度高,效度不一定高,测验的效度受其信度的制约。