从概念上可以看出,垂直标定是针对不同年级或年龄被试群体进行的,但要求进行标定的内容领域是相同的,比如语言能力、数学能力等领域。用于垂直标定的测验对于不同年级或年龄被试而言,测试领域相同,但是题目的具体内容和难度是不一样的,这也是与传统等值的差异。垂直标定可能会涉及两种不同的被试情况:①同一时间段内,收集不同年级或年龄段被试的测试数据,进行垂直标定,并且不同年级或年龄段的被试是独立的。②不同时间段内,收集同一批被试的测试数据,进行垂直标定,在不同时间段中,被试是相同的,只是被试特质水平随着时间发展会发生变化。第二种情况下的等值设计本身比较简单,可以直接使用单组不同测验的设计模式,同样可以评价各个被试在不同时间段水平的发展变化情况,以及整个群体的特质发展状况,但是由于对同一批被试进行不同时间段测试,跨度时间过大将不利于数据的收集工作。针对第一种情况,垂直标定主要包含两方面的内容,分别为垂直标定设计与等值关系转换方法。
垂直标定
在某个特质领域内,在纵向发展的不同水平(如年级、年龄)群体之间,建立关于群体或者个体特质水平发展状况的评价参照体系的过程。又称垂直量尺化、垂直链接。
- 英文名称
- vertical scaling
- 又称
- 垂直量尺化、垂直链接
- 所属学科
- 教育学
在进行垂直标定时,一般可能会涉及多个年级或年龄段,于是使用一个统一的锚测验施测于所有年级或年龄段,各年级或年龄段的被试在非锚测验上的得分,通过锚测验可以标定到同一量尺上。然而锚测验设计中,锚测验的项目对于低年级或年龄段被试而言太难,对高年级或年龄段的被试而言又太简单,这两种情况下的项目,对于相应年级或年龄段的被试水平估计都不能提供任何信息,于是锚测验在不同年级或年龄段被试的信度可能存在较大差异,从而影响垂直标定结果的稳定性。
先找一个起始年级或年龄段,首先通过锚题,建立它与相邻年级或年龄段之间的链接;然后通过锚题,建立该年级或年龄段与下一个年级或年龄段的链接,以此类推,从而建立起所有年级或年龄段之间的链接。锚题设计中,由于不同的相邻年级或年龄段采用的锚题不同,信息量衰减不会太明显,而且容易实施。但是,锚题在两个不同位置之间如果发挥的作用不同,会产生项目漂移,而且也容易产生情景效应。
指在同一个年级或年龄段内抽取,而且需要抽取多个被试组。除了最低与最高年级或年龄组随机抽取两组被试外,其他年级或年龄组都需要抽取三个随机等组被试组,其中一个组作答与水平更低年级或年龄组的锚测验,一个组作答只属于本年级或年龄组的测验,另外一个组则作答与水平更高年级或年龄组的锚测验,而最低和最高的年级或年龄组只需要作答相邻年级或年龄组的锚测验以及本组测验。但是,不同年级或年龄组被试总体之间要满足等组设计非常难。
在垂直标定设计中,不同设计是可以相互渗透、相互组合的,由于等组设计条件要求过高,因此不同年级或年龄水平之间更适合选择锚测验进行链接,其等值转换关系也总是通过锚测验建立。
通过垂直标定设计,收集不同年级或年龄组被试的作答数据,需要将各个年级或年龄段的原始分数转换到同一尺度上,从而实现不同水平的测验结果可以进行比较。原始分数的转换方法包括Hieronymus方法、Thurstone方法和IRT方法。
在锚测验中,Hieronymus方法将各年级原始总分的中位数作为对应的年级或年龄组的量尺分。在锚测验与各量尺分数确定后,不同水平测验结果通过等组等百分位链接方法,以锚测验为桥梁转换为量尺分。而在锚题设计与随机等组设计中,则利用锚题等百分位或者随机组等百分位链接方法将其他年级或年龄组的测验结果转换到基准年级上,最后转换为量尺分数。
Thurstone方法需要满足多个前提条件:①假设来自正态分布总体的被试样本的得分也应该服从正态分布。②由潜在特质水平决定的观察分数或者转换分数要保证严格的单调关系。③两批被试水平之间和两批项目难度之间有相同的转换关系。④锚测验应该对整体测验具有很好的代表性。在锚测验设计中,每个年级或年龄组的测试结果在年级或年龄内进行正态化处理后,通过正态化分数转换关系,可以实现各年级或年龄组的结果处于同一量尺上。对于锚题设计与随机等组设计,其正态化转换关系则是通过锚题和随机组共同完成的测试实现。
IRT方法主要通过同时估计与分别估计两种方法实现垂直标定,并且已成为垂直量尺分数构建的主要方法。同时估计是将所有年级或年龄组测验同时进行参数估计,所获得被试能力值都处于同一个分数量尺上。而分别估计,则需要通过锚测验、相邻组的锚题和随机组,将不同年龄与年级组的结果通过等值方法置于同一量尺上。在单维项目反应理论中,两种估计方法各有利弊,分别估计能够考察锚题是否存在项目漂移的问题;而在单维性的假设满足时,同时估计的精度更高,但同时估计由于每个被试存在大量的未作答项目,使得估计结果很难收敛。
扩展阅读
- BAKER F B, KIM S H.Item Response Theory: Parameter Estimation Techniques.2nd ed.New York:Marcel Dekker, Inc,2004.
- 戴海崎,张锋,陈雪枫.心理与教育测量. 3版.广州:暨南大学出版社,2011.
- 罗照盛.项目反应理论基础.北京:北京师范大学出版社,2012.
- 戴海琦.心理测量学. 2版.北京:高等教育出版社,2015.