基于分位数的直方图数据回归分析预测法最先由R.韦尔德(R.Verde)和A.伊尔皮诺(A.Irpino)在直方图数据Wasserstein距离基础上提出,主要思想是用分位数函数来表达直方图数据单元。
考虑两个概率密度函数和
,则二者的Wasserstein距离可以表达为:
(1)
假设和
分别表示被解释分布数据变量和解释分布数据变量对应的分位数函数变量,韦尔德和伊尔皮诺对如下数据表进行建模:
(2)
即用对应的分位数函数来表达原始的直方图数据单元。将被解释分布的分位数函数表达为解释分布的分位数函数的线性模型如下:
(3)
其中残差项为一个函数,但不必为一个分位数函数,此外要估计的回归系数
为普通数值数据。记回归系数的估计值为
,从而将直方图数据的回归问题转化为最小化如下基于Wasserstein距离的误差平方和:
(4)
根据最小二乘的思想求解得出回归系数的估计值,从而可得到被解释分布数据变量的分位数函数的预测值,进一步可以得到对应的分布函数。
值得注意的是,由于该模型是基于直方图的分位数函数进行的线性回归建模,因此如果当回归系数为负值的时候,可能导致模型的结果不再是一个分位数函数。为了表达被解释变量与解释变量之间的负相关系,S.迪亚斯(S.Dias)和P.布里托(P.Brito)同样基于直方图数据的Wasserstein距离,在线性回归模型中引入对称直方图,但是该模型仍没有解决回归系数必须为正的约束。随后,韦尔德和伊尔皮诺又引入了一个两段模型来改进基于直方图数据分位数函数的Wasserstein距离方法,虽然可以通过最小化距离函数来得到模型的参数估计,但由于分位数函数本身在普通加法和数乘运算上不具备线性空间的结构,因此得到的估计系数容易失效。