吞噬小说网

吞噬小说网>认知诊断评估 > 第二节 等值和垂直量表化(第1页)

第二节 等值和垂直量表化(第1页)

第二节等值和垂直量表化

在已有的认知诊断评价研究文献中,极少涉及测验等值问题的研究内容。等值在此难道是个不必要和不重要的问题吗?只要是需要对不同测试情形下的被试得分或测验进行比较,那么,等值就是一个必需的过程。在大规模评价项目中,对不同测试情形下的结果进行比较是非常重要而又非常常见的,因此,等值的问题应该得到关注。

在认知诊断评价理论框架下,被试典型的得分模式表现为离散的属性掌握模式,这与经典测量理论和项目反应理论框架下的被试得分模式不同。另外,项目参数包括属性模式和题目及属性参数,这些参数的类型与项目反应理论的参数也存在差异,参数之间的等值转换模式还没有得到研究。

基于认知诊断评价理论及其模型的等值研究非常少,还没有成熟的等值方法得到广泛认可。但还是需要让研究者们理解关于等值的概念及其基本逻辑过程。因此,本书介绍了相关的内容,希望能够引起大家的关注,并在此基础上对认知诊断评价理论架构下的等值问题进行深入的研究。

本章内容首先需要解释清楚几个在中英文文献中经常出现的相关概念。虽然有些作者可能会使用不同的术语,但进行一些界定是必要的,至少让读者可以明白出现这么多不同的用语,是因为在实际研究中存在许多不同的具体测量情形。

量表化(sg)是测量学中一个最基础的概念。测量的目的就是要给被试某方面的心理特质指定一个值,而对这个值的大小的意义解释就需要依赖于某个度量单位系统。量表化指的就是建立统一的具有可比性(parability)和参照性(reference)的度量(scale)系统的过程。“scale”这个单词有尺子的意思,如用于量身高的工具叫“scale”,用于称体重的工具也叫“scale”,而我们心理学中广泛使用的用于测量心理特质的量表也叫作“scale”,心理量表是用于测量心理量的工具,将被试在心理量表上的得分对照常模参照表(即统一长度)就可以判断他在总体中的位置,以及这个得分意味着什么,而能够对被试得分进行这种解释。量表与一般的非标准化调查问卷是不同的,未经过标准化的调查问卷就只能评价当前参与测试的样本群体的相对位置。量表化总是针对某种特质或某个相关特质领域进行的。量表化的途径非常多,如读者非常熟悉的经典测量理论中介绍的各种测量常模的建立。为了建立统一度量系统的量表化过程可能会使用很多测量数据转换方法,如链接、等值、校准、一致化等。

链接(linking)这个术语在使用时,经常会代表两种意义:一种是包含建立两个测验之间各种关系的过程,如等值、校准、预测;另一种是指代相对比较狭窄的范围,一般是指建立两个测量目标相同的测验之间的比较系统,而且,虽然这两个测验有相同的目标或者结构(struct),但是,测验之间的难度分布、信度指标可能都不一样,有人又称这种情形为校准过程。不过,在大多数学者的认识中,链接一般指的是第一种意义,本书关于链接一词的使用一般也是指第一种意义,而第二种意义使用下面将要介绍的“校准”一词来指代。

&ing)这个术语一般是指建立两组或多组平行测验之间的比较系统的过程。所谓平行测验是指若干不同测验,这些测验的编制过程、测试过程和解释过程几乎按照相同的严格界定进行,测验的范围相同、测验的具体章节内容相同、测验题型和计分规则相同、测试条件和过程相同、测验难度等计量学指标分布相同。

校准(calibration)这个术语是指建立两个结构相同,但难度分布或信度指标可能不一致的测验分数之间的统一分数量表。比如,为了追踪了解小学生在数学课程上的进步状况,需要建立不同年级间数学分数的比较系统,以便了解当某个学生从三年级升入四年级之后,其数学水平是否得到提高,这种比较关系的建立过程就是垂直量表化(vertig)。在这种情形下,不同年级的数学测验虽然目标领域是一样的,但测验难度分布却是不一样的。另外一种实际情形就是,由于某智力测验完整版的测试时间太长,容易导致被试作答疲劳,因此同时编制了一个简缩版,简缩版与完整版所测量的结构是一样的,题型也是一样的,难度分布等统计学指标也保持一致,只是题目量减少了。随着题目量的减少,测验的信度指标也就发生了变化,测验开发者当然希望建立完整版测验与简缩版测验分数之间的比较关系,这样才能让使用者无论作答了哪个测验,均能得到相似的结果解释,这个关系的建立过程也叫作校准。

一致化(ce)这个术语一般是指建立两个测量目标相近(similar)的测验之间的比较关系。所谓测量目标相近,就是测验目标内容之间有较高的相关,但却并不完全一样(identical)。比如,建立韦氏智力量表分数与瑞文测验分数之间的比较关系的过程,就可以称为一致化过程。

调谐(moderation)一词一般是指两个测量目标或结构不同的测验上的分数建立比较关系的过程。其中一种典型的设计方法是,两个测验通过分别建立与第三个测验(调谐测验)之间的关系,来达到相互比较的目的。典型的过程是,一组被试作答第一个测验与调谐测验,另外一组被试作答第二个测验与调谐测验,这种设计可以对两组被试在不同测验上的得分进行比较。另外一种更简单的设计,就是两个测验施测于同一批被试或两个随机等组的被试,从而建立两组分数之间的等值关系,这个其实就是观察分数等值方法。

预测(proje)一词一般指的是在两个测试不同目标或结构的测验之间建立分数的比较关系的过程。在建立比较关系时,预测一般是用一个测验上的得分去预测另一个测验上的得分,具体的方法通常是用回归分析(regressionanalysis)建立同一组被试在两个测验上的得分之间的关系。

调谐和预测两种方案所处理的测验一般都是测量不同的目标或结构。比如,一般能力倾向测验经常是以分测验(subtest)的形式成组编制的(testbattery),每个分测验所测量的结构之间有很大的差异,但是通过这种测验,可以了解被试在不同领域之间的优势和劣势。当然,在编制这类测验时,需要考虑分别建立总测验和各个分测验的比较系统,以便比较被试在不同分测验上所处的位置。另外,通过调谐这种方案所建立的分数比较关系是对称的,但通过预测这种方案所建立的比较关系却不是一一对称的。

为什么文献上会出现这么多相关术语,就是因为对测验进行量表化时可能会涉及各种不同的情形,以及量表化的目的可能不同。科龙和布雷南指出,在对测验进行量表化时,至少需要对以下四个方面的情形特征加以考虑。

①推断(inferences):在根据被试两个测验上的分数所蕴含的意义进行推断性解释时的相似性程度。如果在做出推断性解释时的相似性程度越高,那么,这两个测验所测内容结构就应该非常一致,适应的参照总体也越相似,测试条件也应该一致。那么,相应的量表化方法也应该越严格。

②结构(structs):两个测验所测结构和内容的相似性程度。相似性程度的高低会影响我们应该选择什么样的量表化方法。

③总体(populations):两个测验测试的总体及解释所参照的总体的相似性程度。

④测量条件(measurements):两个测验测量条件的相似性程度,如测验长度、测验模式、施测条件等。

根据这些情形条件的不同,在进行量表化时就可能需要使用不同的方案和方法。比如,对于“等值”所处理的情形,应该是两个测验经等值后的分数可以进行相同的推断解释,两个测验测量了相同的特质结构,测验结果解释的参照总体相同,在相同的测量条件下进行施测。对于“一致化”所处理的情形,就要求两个测验测量的特质结构相似,测量条件相似,相同的测验分数可以进行近似的推断和解释,测验结果解释的参照总体相似。而对于我国分省高考的情形,测试的结构可能存在很大差异,施测的条件存在差异,测验分数的参照总体存在差异,两省高考之间相同的测验分数不能进行相似的推断。当然,我们还是希望能够建立不同省份之间高考分数的比较关系,只是需要应用不同的量表化方案。

虽然有这么多的术语,它们分别代表了不同的应用情境,它们之间有着不同的具体目标,但最后的目的是一样的,那就是建立不同测验分数或不同被试群体之间比较系统的关系,即进行统一量表化。而且有些量表化方案在具体实施时,可能会使用相同的数据采集设计方式,甚至使用相同的数据统计分析方法。比如,垂直量表化和等值在数据采集设计和建立比较关系的统计分析方法上就有许多相同或相似之处。

下面的内容主要是关于等值的设计模式及等值转换方法的介绍。在国内,关于等值概念的应用似乎比较宽泛,基本与这里讲到的链接(linking)一词的指代范围一致。本章以下内容将会遵照国内的传统叫法,只是读者自己需要明白各种情境下的等值需要注意的问题,并逐步建立自己关于量表化概念、方法的正确认识和交流习惯。等值一般包括被试分数等值、被试能力水平参数等值和项目参数等值。本章最后还会讲到现在及将来在教育及心理评价中具有非常重要应用价值前景的垂直量表化(vertig)或叫垂直链接(vertig)的模式和方法问题。

一、等值

等值是将测量同一心理特质的不同测验分数或项目参数,通过一定的设计和数学模型,转换到统一的单位系统中去的过程。

等值是进行大规模评价中经常用到的测量技术。在大规模评价活动中,经常会用到多个测验测量不同的被试群体,但是,又希望最终的测试结果是可以进行相互比较的。在我国,高考应该是较大规模的全国统一考试,现在是各个省份进行自主命题考试,虽然考试大纲是统一的,但不同省份命制的具体题目千差万别,如果不进行等值设计,各个高校在招生时就只能按照在各省分配名额的方式进行,因为各省考试分数之间不可比较。现在,我国也开始重视教育质量进步的评价问题,除定性分析之外,用测试分数进行评价应该是一个重要手段,教育质量进步评价涉及纵向评价问题,而根据不同年份的不同测验结果如何能够评价学生成绩的进步情况呢?这也需要进行等值设计,以保证测验分数的可比性。

另外,考试安全是考试组织者最为关心的问题之一,为了保证考试的安全,组织者几乎想尽了各种办法。其实,如果能够建立大型题库,并实行计算机化自适应考试,测试组织者几乎不用花多少心思就可以解决考试的安全问题。有些考试单位已经开始研究尝试建立题库。不过,题库的建设如果离开了项目参数等值过程,这个题库几乎就没有多大价值,至少没有充分发挥它应有的价值。

(一)进行等值的条件

在两个测验之间进行等值必须具备一定的条件。根据洛德的观点,等值一般应当具备以下条件。

1。测验内容同质

洛德认为,测试不同特质(traits)的测验之间不能进行等值。被等值的两个测验必须是测量相同的心理特质或特质领域。对测试完全不同的心理特质的测验进行等值是没有意义的。就像将数学成绩与语文成绩进行比较,这是没有必要的。

2。测验信度相等

洛德认为,不同信度测验上的分数不能进行等值。如果一个不可靠的测验上的分数可以等值到一个可靠的测验上,那么就不用专心去开发可靠的测验了。所以,被等值的两个测验必须有相等的信度水平。测验的信度不同,意味着测验结果的可靠性程度不同,不同可靠性程度的测验进行等值的结果也是不可靠的,两个进行比较的分数也就不平等。比如,一个信度高的测验和一个信度低的测验,在其中一个测验上的90分可能对应着另一个测验上的88分,也有可能对应另一个测验上的92分。

3。测验难度水平相同

洛德认为,不同难度水平测验上的分数不能进行等值,因为不同难度水平的测验,在测量被试能力水平时的信度是不一样的。

热门小说推荐

最新标签