二列相关一词最早由英国统计学家K.皮尔逊(Karl Pearson,1857~1936)在1909年提出并指出研究此类问题的重要性,给出了较复杂的计算方法。R.F.塔特(Robert F.Tate)在1955年对二列相关的理论和方法进行了较为全面的综述。D.J.谢斯金(David J.Sheskin)于2011年对二列相关的计算给出一个简单的公式,该公式随之被各领域的应用研究者广泛使用。
首页
[{"ID":42422,"Name":"理学"},{"ID":59818,"Name":"统计学"},{"ID":59872,"Name":"教育、心理、体育统计"},{"ID":59873,"Name":"【基本概念】"}]
. 理学 . 统计学 . 教育、心理、体育统计 . 【基本概念】二列相关
/biserial correlation/
最后更新 2022-01-20
浏览 229次
用来表示一个正态分布的变量和一个二值变量间的相关,其中二值变量是由一个潜在的正态分布变量通过某个阈值划分而成。
- 英文名称
- biserial correlation
- 所属学科
- 统计学
二列相关适用于两个正态分布的数据,其中一个被人为地划分为二分变量,例如测验成绩常被划分为及格和不及格。若有两个正态连续变量和,其中被人为地划分成0-1两值变量,假设有n对观测值,D.J.谢斯金在点二列相关的基础之上给出二列相关的计算公式如下:
式中为二列相关系数;
为两值变量取值为1所对应的连续变量
的均值;
为两值变量
取值为0所对应的连续变量
的均值;
为正态连续变量
的标准差;
和
分别为两值变量取值为1和0的比例。
,这里
满足标准正态分布的随机变量
大于等于
的概率是
,即
,
的值可以通过查标准正态分布表得到。
二列相关系数的取值[-1,1],正(负)值表示正(负)相关,绝对值越接近1,说明相关程度越高。二列相关与点二列相关是有区别的,二列相关中的两值变量其潜在分布是正态分布,由二列相关计算得到的相关系数也大于点二列相关。
在测验中,二列相关可用来计算项目的区分度。例如,有10名学生的语文测验总分(0~100分)分别为85,88,85,75,60,77,80,85,90,75,其中作文题的分数(0~40分)分别为35,38,30,24,20,25,36,37,39,30,语文测验总分和作文题分数均可视为服从正态分布。若把作文题分数大于等于32分记为合格,小于32分记为不合格,则作文题是否合格的二值变量取值分别是1,1,0,0,0,0,1,1,1,0。语文测验总分与作文题是否合格间的二列相关系数可以用来表示作文题的区分度,计算过程如下。
语文测验总分的平均分是80,语文测验总分的标准差是:
已知。
查标准正态分布表可得,。
所以,语文测验总分与作文题是否合格间的二列相关系数是:
扩展阅读
- 刘红云,骆方.应用心理统计学.北京:北京师范大学出版社,2015.
- GREGORY R J.Psychological Testing: History, Principles and Applications.7th ed.Upper Saddle River:Pearson,2017.