基于全信息的区间数据线性回归预测法由王惠文等人在Moore算术的基础上提出,能够较准确地捕捉区间数据内部的全部信息,解决区间数据的投影问题,确保因变量的区间预测值具有内部一致性。
区间数据是一种常见的符号数据形式,对形如式(1)所示的维区间数据矩阵:
…(1)
矩阵中的每一行为一个区间样本,每一列
为一个区间变量,每一个观测都由一个区间数据来表示。
20世纪50~20世纪60年代,R.E.摩尔(R.E.Moore)提出了区间算术(interval arithmetic)的理论方法,从而得到区间数据的加法和数乘运算规则,给定任意区间数据和
,以及任意实数
,称
和
为区间数据的加法算子和数乘算子,
…(2)
,其中
…(3)
从而可以定义减法算子为
…(4)
假设每一个区间数据内部的所有数值服从均匀分布,王惠文和关蓉基于分化数据的概念推导了区间数据和
的內积为
…(5)
从而可以得到的平方模为
。
假设区间变量和
之间存在线性模型如下
…(6)
其中,表示残差向量,是所有元素都为1的
维向量,这两个向量的数据单元为普通数值型数据,也是区间数据的一种特殊形式。可以看到,式(6)给出的线性回归模型将区间样本视作一个整体,使用区间数据表的所有信息来建模。
记回归系数的估计值为,基于以上给出的区间数据基本算子及最小二乘的思想,可以得到
…(7)
式(7)中的元素均为数值型数据,因此容易得到回归模型的系数估计值,从而可得到因变量的预测值的区间数值。
基于全信息的区间数据线性回归预测法的提出,为相关数据分析工作提供了必要的理论支持,也为拓宽区间数据的应用领域奠定了重要的理论基础。