基于分位数的直方图数据回归分析预测法

首页 . 管理学 . 管理科学与工程 . 预测理论与方法 . 相关分析预测法 . 海量数据预测法 . 基于分位数的直方图数据回归分析预测法

/linear regression model with histogram-valued variables based on quantile function/

条目作者王惠文

王惠文

最后更新 2022-12-23

浏览 99次

最后更新 2022-12-23

浏览 99次

0 意见反馈条目引用

基于分位数对直方图数据进行线性回归分析的一种符号数据分析预测方法。

英文名称: linear regression model with histogram-valued variables based on quantile function

所属学科: 管理科学与工程

基于分位数的直方图数据回归分析预测法最先由R.韦尔德（R.Verde）和A.伊尔皮诺（A.Irpino）在直方图数据Wasserstein距离基础上提出，主要思想是用分位数函数来表达直方图数据单元。

考虑两个概率密度函数 $f$ 和 $g$ ，则二者的Wasserstein距离可以表达为：

$d_w(f,g) = \sqrt{ \int ^1_0 [Q^f (t)-Q^g(t)]^2 dt }$ 　（1）

假设 $Y$ 和 $X_1,X_2,\cdots,X_p$ 分别表示被解释分布数据变量和解释分布数据变量对应的分位数函数变量，韦尔德和伊尔皮诺对如下数据表进行建模：

$[Y|X]=[Y|X_1X_2\cdots X_p]= \left [ \begin{matrix} Q^y_1 & Q_{11}^x & Q^x_{12} & \cdots & Q^x_{1p} \\ Q^y_2 & Q_{21}^x & Q^x_{22} & \cdots & Q^x_{2p} \\ \vdots&\vdots&\vdots &\ddots &\vdots \\ Q^y_n & Q_{n1}^x & Q^x_{n2} & \cdots & Q^x_{np} \\ \end{matrix} \right ]$ 　（2）

即用对应的分位数函数来表达原始的直方图数据单元。将被解释分布的分位数函数表达为解释分布的分位数函数的线性模型如下：

$Q^y_i=\beta_0+\Sigma^p_{j=1}\beta_jQ^x_{ij}+\varepsilon_i$ 　（3）

其中残差项 $\varepsilon_i$ 为一个函数，但不必为一个分位数函数，此外要估计的回归系数 $\beta=(\beta_0,\beta_1,\cdots,\beta_p)'$ 为普通数值数据。记回归系数的估计值为 $B=(b_0,b_1,b_2,\cdots,b_p)'$ ，从而将直方图数据的回归问题转化为最小化如下基于Wasserstein距离的误差平方和：

$SSE(b_0,b_1,\cdots,b_p) = \Sigma^n_{i=1}d^2_w(f^y_i,\widehat f^y_i) =\Sigma^n_{i=1}\int^1_0[Q^y_i(t)-(b_0+\Sigma^p_{j=1}b_j Q^x_{ij} (t))]^2dt$ 　（4）

根据最小二乘的思想求解得出回归系数的估计值 $B=(b_1,b_2,\cdots,b_p)'$ ，从而可得到被解释分布数据变量的分位数函数的预测值，进一步可以得到对应的分布函数。

值得注意的是，由于该模型是基于直方图的分位数函数进行的线性回归建模，因此如果当回归系数为负值的时候，可能导致模型的结果不再是一个分位数函数。为了表达被解释变量与解释变量之间的负相关系，S.迪亚斯（S.Dias）和P.布里托（P.Brito）同样基于直方图数据的Wasserstein距离，在线性回归模型中引入对称直方图，但是该模型仍没有解决回归系数必须为正的约束。随后，韦尔德和伊尔皮诺又引入了一个两段模型来改进基于直方图数据分位数函数的Wasserstein距离方法，虽然可以通过最小化距离函数来得到模型的参数估计，但由于分位数函数本身在普通加法和数乘运算上不具备线性空间的结构，因此得到的估计系数容易失效。

扩展阅读

IRPINO A, VERDE R．Linear regression for numeric symbolic variables: a least squares approach based on Wasserstein Distance．Advances in data analysis and classification，2015，9(1)：81-106．