首页 . 工学 . 测绘学 . 大地测量学 . 测量误差理论与数据处理

测量误差理论与数据处理

/theory of measurement error and data processing/
条目作者彭军还

彭军还

最后更新 2022-01-20
浏览 391
最后更新 2022-01-20
浏览 391
0 意见反馈 条目引用

研究测量误差的统计规律、建立误差与数据处理模型、制定消除或削弱误差对测量结果影响的准则以及对带有误差的数据进行运算获取最优结果的处理理论和方法。

英文名称
theory of measurement error and data processing
所属学科
测绘学

最早开始系统研究测量误差理论与数据处理的科学家是法国数学家A.M.勒让德和德国的数学家J.C.F.高斯,提出用最小二乘准则来解有矛盾的观测方程组,称为最小二乘法,高斯导出测量误差服从正态分布。在20世纪20年代,英国统计学家R.A.费歇尔导出了依赖于概率分布的极大似然估计方法,误差正态分布时与最小二乘方法等价。实际上,贝叶斯方法(极大验后估计)的历史早于极大似然估计,其更广泛应用是在60年代以后,是广义平差的基础。英国统计学家K.皮尔逊研究分布拟合时建立的卡尔-平方统计量开启了现代数理统计的里程,与后续的检验统计量一道,构成了平差模型统计假设检验分析、质量控制的统计学基础。奥地利著名物理大地测量学家莫里茨利用随机过程的协方差函数,提出用最小二乘配置(拟合推估)法估计随机信号过程任意点的值,包括趋势和信号部分。中国著名大地测量学家周江文提出用拟稳平差法确定变形监测网的拟稳基准。

测量误差理论与数据处理的研究内容包括测量误差的来源、性质与分类、统计分布、模型、传播规律以及数据处理的理论和方法。测量误差是指测量值(或观测值)与其真值之间的差值。

测量中涉及的观测者、仪器、外界条件等是误差发生的原因,也是误差的来源。观测者的感官局限、态度差异、心理状态情况、技术水平不同等都会导致误差;仪器精密度的局限也会导致测量误差;大气温度、湿度、风力、气压、折光等环境因素的变化也会导致误差。

按照测量误差对观测结果、未知量估值的影响性质,可分为系统误差、偶然误差、粗差等。

误差是随机变量,其出现具有一定的统计规律性,即任一误差的出现都有一个确定的概率分布,例如偶然误差的分布是正态分布。正态分布是观测数据优化处理的理论基础,也是测量中常用的误差概率分布模型。

描述误差统计分布规律的数学模型。测量误差模型包括:①系统误差模型。一种是物理模型,如全球导航卫星系统测量中大气误差的电离层模型、对流层模型;另一种是回归模型,如有色误差过程的自回归模型等,需要根据其产生的物理机制和分布规律来确定。②偶然误差模型。通常用概率分布来描述,如正态分布。正态分布又名高斯分布或高斯正态分布,是测量中常用的误差概率分布模型,最早由法国-英国数学家棣莫弗在求二项式分布的渐近公式中得到。高斯在研究测量误差时,假设极大似然估计满足平均值最优公理导出。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。③粗差模型。用污染分布模型描述,是一种混合概率密度模型,如粗差源于函数模型误差,则使用均值移动模型;如源于随机模型误差,则使用方差膨胀模型。

研究观测值误差对观测值函数的误差影响,观测量或观测向量的函数或函数向量的方差协方差与观测量的方差协方差的数学关系即是方差协方差传播规律,也是误差传播规律。

按是否依赖于时间、位置变化可把误差看成随机变量或随机过程,因此概率统计和随机过程是测量误差理论的数学基础。测量或观测目的是为了直接或间接确定某些未知量,也可以称为参数。应用数学方法消除或削弱测量数据中的误差,求解未知量并进行质量评定和误差模型统计假设检验的过程就是数据处理。测绘学科中数据处理就是测量平差,其内容由包含函数模型与随机模型的平差模型、平差或估计准则、平差计算、精度和/或质量评定、误差模型统计检验分析等内容组成。按照测绘学科的发展,基于统计学随机试验样本理论建立的测量误差数据处理的理论与方法可相应分为经典平差或测量平差基础,广义平差或现代平差以及测量大数据分析等。

在经典平差或测量平差基础上观测量或观测向量可看成一个随机总体,观测数据是来自总体的一个样本,测绘学科中用平差模型来描述总体,平差模型包括函数模型和随机模型。函数模型描述观测量之间,观测量与待求未知量之间以及待求未知量之间的数学关系,通常是根据某种数学和/或物理机制构成的方程组,也称为观测方程;随机模型是描述误差性质的误差模型,由数学形式已知的概率分布描述,最多的是用观测量和/或观测误差的方差协方差矩阵来描述。由于误差存在,观测方程通常存在不符值,是无解的矛盾方程组。对观测方程加上待求的改正数(或称为残差或误差估计值,代数上称为松弛变量)以消除不符值,观测方程因改正数变为解无穷的方程组。通过最小二乘准则,即改正数平方和或加权改正数平方和最小,将求解未知量估计值、改正数和观测量平差值等转化成一个极值优化问题得唯一解。利用改正数计算单位权方差作为精度评定指标。将观测量、参数估计量、改正数和观测量平差值构成基本向量并求其方差协方差矩阵作为计算误差椭圆、相对误差椭圆参数、构造平差模型参数统计检验量和质量控制的必要条件。经典平差按函数模型的形式变化可分为条件平差、间接平差、附有未知数的条件平差、附有限制条件式的间接平差等形式。

设下列符号分别是观测量、观测误差、待求参数、观测量平差值、观测量改正数、参数估计量、系数矩阵、权阵、协因数阵和单位权方差。经典平差的形式化描述包括:

函数模型:



(1)

式中为观测数;为未知参数个数;为多余观测数。

或:          



(2)


随机模型:



(3)

(4)

最小二乘估计准则:



(5)

极值问题:



(6)

法方程:



(7)

式中,为法矩阵。

参数估计:



(8)

改正数:



(9)

式中为单位阵;为多余分量矩阵。

平差值:



(10)

单位权方差估计:



(11)

基本向量由观测量、参数估计量、改正数、观测量平差值组成,其方差协方差阵由系数矩阵、权阵和单位权方差决定:



(12)

权、相关权、单位权方差与权阵:权是测量中的重要概念,每个观测都有一个权,定义为选定的正常数与观测量或观测误差方差的比值,也等于协因数的倒数,选定的正常数称为单位权方差;相关权是单位权方差与协方差的比值,是协因数的倒数。权的性质:①权的绝对值可变,但权比不变,即单位权方差可以变化,但权的比例不会发生变化,;②对独立观测,协因数阵是对角阵,其逆阵就是权阵,其对角线元素符合权的定义;③对相关观测,协因数阵是非对角阵,其逆阵只是计算意义上的权阵,对角线元素并不等于权,非对角元素也不等于相关权。

误差椭圆和相对误差椭圆:测量学中点的平面位置由两个平面直角坐标表示,相应的方差协方差为。通常两个直角坐标是相关的,协方差不为零。将坐标系旋转某一角度到新坐标系可得协方差为零的两个新直角坐标及其相应的标准差,分别作为长半轴与短半轴构成误差椭圆:



(13)

与长半轴夹角为的方向位差为:



(14)

式中为坐标轴旋转到该方向时相应的坐标方差,的平面曲线称为误差曲线。相对误差椭圆即两个平面位置点坐标差的误差椭圆。这一概念可自然推广成三维误差椭球。

误差分布与平差模型参数的统计假设检验:经典平差结果的正确性与最优性是根据平差模型(函数模型与随机模型)假设的正确性导出,如平差模型假设违背实际情况:函数模型参数隐藏了某种物理关系、数学关系或忽略了随机模型的统计相关关系,观测误差违背了偶然误差特性等,此时平差结果不是最优,甚至不正确,需要利用统计假设检验方法来证明平差模型的正确性或合理性。统计假设检验的一般步骤包括:①确定原假设和备择(替代)假设,并将假设构造成服从某种分布已知的统计量;②按照小概率事件不可能发生的原则,选择一小概率作为显著性水平,并依据和概率分布将统计量的可能取值划分成拒绝域和接受域;③根据观测数据计算统计量的值,当统计量取值落入接受域则接受原假设,否则落入拒绝域放弃原假设接受备则假设。常用于统计假设检验的统计量包括服从正态分布的统计量,服从学生分布,亦即分布的统计量,服从卡尔-平方分布的统计量,以及服从分布的统计量。误差分布和平差模型参数假设的正确性检验都是通过将相应假设构造成前述四种统计量来进行。假设检验是一个统计决策过程,会出现四种情况:原假设正确时被接受,原假设正确时被拒绝从而犯弃真错误(亦称第一类错误,相应概率即显著性水平),被择假设错误被拒绝,被择假设错误被接受从而犯纳伪错误(亦称第二类错误,相应概率称为功效)。理论与实践中都不可能让两类错误同时达到最小,通常是固定第一类错误概率,构造使第二类错误概率最小的统计量来进行检验,称为最优检验。

极大似然估计:观测量或误差的分布的数学形式已知,未知参数为非随机量且个数有限,概率密度称为似然函数,对数概率密度被称为对数似然函数,极大似然估计就是根据观测数据求得的未知参数使似然或对数似然函数达到极大值。

最小二乘估计准则与极大似然估计准则关系:前者无须知道观测量和/或观测误差的概率分布,参数估计量是观测量的线性组合且具有最小的线性估计方差;后者要求概率分布数学形式已知且参数个数有限,估计方差能达到克拉美-劳不等式下界,即具有最小方差;当概率分布为正态或高斯分布时,二者完全等价,而测量误差通常认为服从正态分布。                      

各种经典平差法之间的关系:对同一测量问题,函数模型形式不同产生不同平差方法,如条件平差、间接平差、附有未知数或参数的条件平差以及附有限制条件式的间接平差。但当采用相同估计准则时,这些方法所获得的参数估值、改正数、平差值、单位权方差等都相同,是等价的。

间接平差模型与线性回归模型之间的关系:间接平差模型与线性回归模型数学形式完全一致,都属于统计学中线性模型参数估计的相关内容,通常都称为高斯-马尔科夫线性模型。不同点在于:对测量问题,观测量与未知参数之间函数模型关系是确定的,即未知参数个数是确定的,而对回归模型,未知参数的个数可以调整,相关性弱或不相关的参数会被抛弃。

经典平差的限制或适用性:经典平差适合线性高斯-马尔科夫模型的样本数据处理,估计参数是无偏、一致(相合)和有效的最优估计,估计方差达到克拉美-劳不等式下界。不适合如下情况:①参数为随机量或随机过程;②观测误差包含粗差,或不服从高斯正态分布;③系数矩阵秩亏或病态;④系数矩阵存在观测误差;⑤未知参数存在不等式约束;⑥随机模型或权阵不精确,或存在未知方差分量;⑦非样本大数据。

当观测数据不遵守经典平差模型,需采用新的估计准则与平差方法,测量平差扩展到广义平差和/或现代平差方法以及处理非样本数据的大数据处理分析方法,包括自由网平差、拟稳平差、岭估计、总体最小二乘平差、方差分量估计、抗差估计(或稳健估计)、整型参数估计、不等式约束平差、极大验后滤波、卡尔曼滤波、最小二乘配置(拟合推估)、EM平差、半参数平差以及大数据分析等。

函数模型:



(15)

随机模型:

     …(16)

如将已知的先验期望看成虚拟观测,相应的广义平差模型变为:

函数模型:

     …(17)

随机模型:

    …(18)

广义最小二乘准则:

    …(19)

参数的广义最小二乘估计为:

    …(20)

估计方差:

    …(21)

极大验后估计准则:未知参数看成随机量时,所求参数估计使验后概率密度最大,即。这里的概率分布并不一定要求是正态分布。

最小方差估计准则:未知参数看成随机量时,所求参数估计使验后方差最小,即,解为条件期望:。这里的概率分布并不要求是正态分布。

极大验后估计与极大似然估计之间关系:前者未知参数看成是随机量,其先验期望可看成虚拟观测,方差协方差用于定权,后者未知参数看成是常量,或即便是随机量,但忽略其先验性质。如果随机参数的先验分布设为无信息均匀分布,则参数的极大验后估计与极大似然估计等价。

广义最小二乘估计、极大验后估计与最小方差估计之间的关系:对线性模型,当观测误差、随机参数都服从正态分布时,三种方法的参数估计与及其估计均方差完全一致。

实践中,随机参数信号与观测误差通常假设独立,即,则广义最小二乘估计准则变为:

     …(22)

参数估计与估计方差分别为:

     …(23)

      …(24)

极大验后滤波与推估:是极大验后估计的应用,如待求参数是依赖于时间或空间变化的随机过程(常称为随机信号过程,或信号),先验分布已知且与观测量存在线性函数关系。利用观测数据求参数的极大验后估计和估计方差的过程即是极大验后滤波;如待求参数与观测量无线性函数关系,利用观测数据求参数的极大验后估计和估计方差的过程即是极大验后推估,此时常用代替

卡尔曼滤波:就是利用连续或离散观测数据求线性高斯动态系统,如车辆、船舶、飞机、卫星等的空间位置、速度或其他状态参数最优估计的过程。状态参数向量组成的运动方程为线性随机微分方程:

    …(25)

观测量或观测过程与状态向量构成线性观测方程:

     …(26)

状态噪声和观测噪声彼此独立,分别为高斯白噪声过程。求状态参数的极大验后估计[式(27)]和估计方差[式(28)]的过程即是卡尔曼滤波。

     …(27)

     …(28)

离散运动方程称为状态转移方程,相应的观测方程为。求状态参数极大验后估计的过程即是离散系统卡尔曼滤波。

最小二乘配置(也称拟合推估)利用已知点观测数据求任意点的空间变量,如重力、大地水准面差距、高程、温度、湿度、气压等的过程。如不考虑时变,空间变量可以看成依赖于地理位置变化的空间随机过程,公式如下:

    …(29)

式中为地理位置,可以是经纬度,也可以是平面直角坐标,如为数学期望曲面,称为倾向或趋势部分,可以用多项式或其他函数描述;为已知均值(通常为零均值)的高斯平稳随机信号过程,任意两点的协方差函数只与两点的距离有关而与位置无关,比如重力场的希尔沃公式:。观测过程:

   …(30)

式中为零均值观测误差过程,是方差为的白噪声或偶然误差过程,并假设与随机信号过程独立。设趋势为。对研究区域观测了个点:。观测向量构成线性函数模型:

    …(31)

应用广义最小二乘平差或极大验后估计方法求任意点的重力或其他空间变量的最优估计及其估计方差的过程即是最小二乘配置,亦称为拟合推估。

最小二乘配置与泛克立金方法之间的关系:本质上二者并无区别,适用性都要求随机信号过程是平稳随机过程。克里金法通过求半变异(或变差)函数来获取协方差函数,二者在平稳假设下满足:。实践中,协方差函数未知时,最小二乘配置用矩法估计不同距离协方差函数的实验值,然后拟合获得协方差函数;克立金法用矩法估计半变异函数实验值并拟合出半变异函数,再根据二者关系导出协方差函数关系。

自由网平差/拟稳平差:当起算数据缺乏或不可靠当作未知时,测量控制网可以认为没有基准或基准缺乏,会出现平移、旋转和/或缩放,此时观测方程和法方程中的系数矩阵和法矩阵表现为秩亏而存在多解,任意两个解满足:。为得到唯一解,设所有参数的2-范数最小,即。法矩阵的零特征值对应的特征向量(个数有秩亏数决定)作为基向量组成矩阵,任意两个解之差可表示为基向量的线性组合。最小范数条件等价于:,称为自由网基准方程。在自由网间接平差模型中补充基准方程变为附有限制条件的间接平差模型,得最小二乘解和估计方差。用取代,相应基准方程变为为对角阵,对角元素为1或零,非对角元素为零,此为拟稳基准,相应地称为拟稳平差。自由网平差、拟稳平差主要用于变形监测网基准确定与变形分析。

岭估计:交会测量中两条边夹角受物理条件制约有可能过小,回归分析中模型参数可能存在线性相关关系,系统误差过分参数化等,会导致间接平差或回归函数模型系数矩阵列向量线性相关,从而使法矩阵最大特征值与最小特征值相差悬殊而病态,行列式逼近零,此时,参数估计量的方差很大,甚至逼近无穷,观测或计算误差的轻微扰动会导致参数估计很大的波动。为克服这一困难,引入岭参数构造参数的岭估计:,及其估计方差:。这是一个有偏估计,由于岭参数可变、可调,因而是一个很大的估计类,其均方误差小于最小二乘估计,但方差大于最小二乘估计。

总体最小二乘平差:也称整体最小二乘平差,源于函数模型系数矩阵存在误差的EIV模型的总体最小二乘估计。如测量学的坐标变换,统计的回归模型等,系数矩阵A也是观测量并包含误差,相应的平差模型称为EIV(error-in-variable)模型,其中函数模型为:。随机模型为:时采用总体最小二乘准则计算参数估计值,相应的估计方法称为总体最小二乘法,测量中称为总体最小二乘平差。算法:将系数矩阵和观测量组成增广矩阵并进行奇异值分解得:,参数的总体最小二乘估计为:,满足方程:。除此之外,测量数据处理领域最常用的是迭代解法。

随机模型验后估计或方差协方差分量估计:最小二乘参数估计的最优性要求先验确定的观测误差的方差协方差矩阵或权阵正确,否则需要根据观测数据对方差协方差分量进行验后估计,估计方法包括矩法和最优化方法。赫尔默特方差分量估计和方差协方差分量估计方法等属于矩法,该法直接根据改正数二次型的数学期望导出方差分量估计;最优化方法包括极大似然估计,最小范数估计,约束极大似然估计,最小范数二次无偏估计,最优(最小方差)二次无偏估计。测量中常用的赫尔默特方差分量估计可由最小范数二次无偏估计导出。除极大似然估计与最小范数估计是有偏估计外,其他都是方差无偏估计。

抗差估计或稳健估计:当观测误差出现粗差或观测值出现异常值时,参数的最小二乘估计不能限制粗差或异常值对估计结果的影响,从而变得不可靠、不稳健。粗差或异常值意味着平差模型(函数模型和/或随机模型)发生了偏差,抗差估计或稳健估计用污染分布来描述粗差或异常值发生时误差的真实概率分布密度,是一种混合概率密度:

    …(32)

式中这里为偶然误差的概率密度,通常为正态分布;为粗差的概率密度,可以是均值移动和/或方差膨胀了的正态分布,也可以是其他分布,如拉普拉斯分布;为污染率,亦即粗差发生的概率或所占比例。针对独立观测,数学家胡贝尔于1964年定义了极大似然型M估计准则作为抗差估计准则:

    …(33)

并通过解方程:

   …(34)

求得稳健参数估计:

   …(35)

式中为对角阵,称为等价权阵,对角元素为等价权,其特点是大误差权小,小误差权大。

是损失函数,通常是偶函数;为计分函数,由损失函数导出,通常是奇函数,也可以不是损失函数的导数,直接用奇函数定义。Hample导出评价M估计是否稳健或抗差的影响函数为:

    …(36)

如影响函数是有界函数,则相应M估计抗差,否则不抗差。期望是参数M估计的方差因子,参数的M估计的渐近方差协方差矩阵为:

    …(37)

整型参数平差:也称为整数参数平差,待估参数中出现整数型未知数时,相应的平差方法称为整型参数平差,研究内容包括参数估计、精度评定与误差分析等。如GNSS测量中待估计的整周模糊度参数,干涉雷达数据处理中的缠绕模糊度等。

半参数和/或非参数平差:源于半参数和/或非参数统计问题。测量中的间接平差模型和统计学的线性回归模型,可以看成参数个数有限、分布数学形式已知的概率统计模型,通常称为参数统计问题,求参数的过程称为参数估计或参数平差;如参数个数无限、分布数学形式不明确,称为非参数统计问题,求相应的参数问题称为非参数估计或非参数平差;介于参数估计(平差)和非参数估计(平差)之间的统计问题,称为半参数估计(平差)问题,如最小二乘配置,趋势或倾向部分与观测误差可以用参数统计模型描述,如随机信号是非平稳过程时,参数个数有可能无穷、分布数学形式也可能不明确,因此可以看成是半参数平差模型。

不等式约束平差:待求未知参数的先验信息满足不等式条件时的平差理论与方法称为不等式约束平差,如海洋全球定位系统(GPS)定位测量中大地高或高程绝对值可以认为小于某个给定量,相应的定位测量模型可以用不等式约束平差方法求解。

期望最大化平差(EM平差):源于极大似然型估计的期望最大化算法(Expectation- Maximazation Algorithm)。对极大似然和/或极大验后估计,可以将某些未观测量或无法观测的隐藏变量作为缺失观测引入到观测量中构成完整观测量,用完整似然函数取代似然函数作为估计准则,并采用迭代两步法求未知参数的估计:

E-Step(期望步骤):给定参数初始值,计算完整似然函数的条件期望:

    …(38)

M-Step(最大化步骤):求使条件期望达到最大:

   …(39)

    …(40)

随着计算机技术、通信技术和传感器技术的发展,人类记录并获得了人类活动和/或自然演化的各种各样海量复杂数据,这些数据并不按照遵循某假设的随机试验获取,不是属于某单一已知或假设总体的样本数据,即非样本大数据,也称为大数据。基于现有的包括随机样本理论的实证数据分析方法和计算机软件已不适用于大数据集。为了从大数据集中提取有价值信息、知识和模式,需要利用、发展包括数据挖掘方法在内的新的探索性数据分析理论与方法并开发相应的计算机软件,形成大数据分析技术。在测绘学科中,高分遥感系统、北斗GNSS系统以及其他测量系统等获取的地理时空大数据集也使测量平差理论面临挑战和机遇。为满足地理时空大数据分析需求,除经典平差(实证数据分析)、广义平差外,需结合现代非参数统计学以及其他数据处理理论进一步发展适合复杂地理时空大数据背景的探索性平差理论与方法。

测量误差理论与数据处理是以数理统计学为理论基础,因此可应用于一切自然科学、工程科学、经济科学、农业科学等领域的观测数据处理内容。

  • 武汉测绘学院大地测量系《测量平差基础》编写组.测量平差基础.北京:测绘出版社,1978.
  • 周江文.误差理论.北京:测绘出版社,1979.
  • 崔希璋,於宗俦,陶本藻,等.广义测量平差.武汉:武汉大学出版社,1982.
  • 李庆海,陶本藻.概率统计原理和在测量中的应用.北京:测绘出版社,2001.
  • 黄维彬.近代平差理论及其应用.北京:解放军出版社,1992.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!