从历史上看,在统计中使用样本分位数至少可以追溯到L.A.J.凯特尔,他将半四分位矩作为一个分布的概然误差(probable error)的估计。F.高尔顿和F.Y.埃奇沃思[注]随后的论文讨论了在各种估计设置中使用其他分位数(例如中位数)的问题。K.皮尔逊等研究了用样本分位数子集的线性函数估计正态分布均值和标准差的最优分位数选择问题。皮尔逊的论文还包含了样本分位数渐近分布推导过程中涉及的大部分细节。随后,有学者对一个样本分位数的大样本性质进行了研究,并给出了其极限分布的严格推导并对其进行泛化,引起了人们对分位数作为位置和尺度参数模型的估计工具的浓厚兴趣。分位数被用于经典和稳健的统计推断的各种问题中,在J.W.图基和E.帕尔逊[注]关于探索性数据分析的工作中发挥了重要的作用。
首页
[{"ID":42422,"Name":"理学"},{"ID":59818,"Name":"统计学"},{"ID":59827,"Name":"数理统计"},{"ID":59831,"Name":"Data Imputation"}]
. 理学 . 统计学 . 数理统计 . Data Imputation四分位数
/quartile/
最后更新 2024-12-04
浏览 464次
对密度函数从负无穷处开始进行积分(连续分布)或累计(离散分布),得到积分或累计值为0.25、0.5、0.75的数据点。
- 英文名称
- quartile
- 所属学科
- 统计学
令为随机变量
的分布函数,相应的分位数函数的定义为:
因此,对某一个固定的,则
的
分位数为
。四分位数即为
取0.25,0.5,0.75时的分位数的值,分别用
,
,
来表示。这三个数可以将数据分为相等的四部分,以此来描述分布的特征。其中第二个分位数
就是中位数。第三四分位数与第一四分位数的差距又称四分位距。
在假设检验及区间估计时,分位数是重要的判断指标;在对分布进行描述时,分位数是很重要的特征。四分位数在统计学中的箱线图绘制方面应用很广泛。所谓箱线图就是由一组数据5个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出分布的特征,而且还可以进行多种分布的分析比较,这五个特征值,即数据的最大值、最小值、中位数和两个四分位数(图1)。
比较两种不同分布的四分位数,首先对于自由度为4的卡方分布而言,其四分位数约为:1.923、3.357、5.385,四分位距为3.462;对于自由度为6的卡方分布而言,其四分位数约为:3.455、5.348、7.841,四分位距为4.386。由以上分布特征知自由度为6的分布较自由度为4的分布而言,向轴的正方向移动,并且数据更加分散(图2)。
条目图册
扩展阅读
- 茆诗松,程依明,濮晓龙.概率论与数理统计教程.北京:高等教育出版社,2004.
- KOTZ S.Encyclopedia of Statistical Sciences.2nd ed.New York:John Wiley and Sons,2005.