在样本概率密度函数估计和数据聚类中有重要应用。混合高斯分布方法假定样本总体来自多个不同的高斯分布,而每个样本以一定的先验概率来自其中的一个高斯分布。
混合高斯分布关于样本总体的概率密度函数表示为:
…(1)
式中为系数,满足如下条件:
…(2)
式中是高斯分布,称为第
个混合成分。
通过多个高斯分布混合来表征一维或者多维随机变量的概率模型,属于混合模型的一种具体实现。其中“混合”的操作是通过对具有不同均值和协方差矩阵的多个高斯概率密度函数进行线性加权来实现,每个高斯分布称为混合高斯分量,对应一个权重参数。
混合高斯分布的优点在于可以通过设置足够多的高斯分量实现具有多峰的分布特性,理论上可以拟合任意复杂数据所对应的概率分布。通常采用最大似然准则对其权重、均值和方差参数进行估计。但由于形式的复杂性,其参数估计没有全局最优的闭式解,常通过期望最大化算法(expectation maximization algorithm,EM algorithm)进行迭代求解。混合高斯分布的EM算法通过构造辅助函数(E步)进行优化(M步)的方式,一方面能使得参数的迭代更新具有闭式解,另一方面通过多次迭代可以收敛于原似然函数的局部最优解。
EM算法和k均值聚类算法有着密切的关系,前者的混合高斯分量与后者的聚类类别可以相对应,k均值聚类算法认为每个数据点只能判给某一个类别,属于硬判决;但是EM算法认为每个数据点对每个混合高斯分量都可以有贡献,属于软判决。
混合高斯模型广泛应用于数据挖掘模式识别,机器学习和统计分析中,对音频和图像等各种实际信号进行建模。