变分贝叶斯的思想源于神经网络的研究,由学者C.彼得森和J.安德森等提出。20世纪90年代学者M.乔丹及其研究团队对变分贝叶斯方法进行了一系列研究。之后,变分贝叶斯方法被推广到了更加一般的情况。2013年学者M.霍夫曼等将变分贝叶斯方法与随机优化方法结合,提出随机变分贝叶斯方法,这种方法适用于复杂贝叶斯模型与大规模数据分析。2017年学者D.布莱从统计学角度发表了关于变分贝叶斯方法的综述文章。自此,变分贝叶斯方法得到广泛的研究。
设表示数据,其中
为数据的取值空间。设
表示未知参数,其中
为参数空间。设
为欧几里得空间的子集。设
表示参数的后验密度函数。对于很多复杂的模型,
具有复杂的形式,难以直接用于统计推断。变分贝叶斯方法利用具有简单形式的分布来近似
,设
为指定的一族备选分布,变分贝叶斯的优化目标是:
式中和
为密度函数;
为
和
之间的库尔贝克-莱布勒散度。
上述优化目标等价于最大化所谓的证据下界:
式中为
和
的联合密度函数。如果
取为使
的各坐标分量相互独立的分布族,那么
被称为平均场变分族,此时上述问题可以通过坐标上升法(coordinate ascent method)来迭代求解。
变分贝叶斯方法的理论性质得到了广泛的研究。根据已有的理论结果,在一定的条件下,可以收敛到真实参数处的单位质量。变分贝叶斯方法在自然语言处理、计算机视觉等领域有着广泛的应用