NMF是一个有界优化问题,优化目标为:
可通过迭代使用最小二乘法进行优化:在每轮交替迭代中先固定H,并基于非负最小二乘法求解法得到W,其次固定W同理求出H。求解W或H的方法有很多并且可以不痛,因为可对H和W进行正则化,同时防止过拟合。主流的求解方法包括倍增更新法、投影梯度下降法等。
非负矩阵分解(non-negative matrix factorization, NMF)是一种常用的矩阵分解算法,基于输入的矩阵,非负矩阵分解算法可将其分解为两个矩阵
和
都是非负的,即:
该方法最早由D.D.Lee和H.S.Seung在1999年于科学杂志《Nature》上提出,它使分解后的所有分量均为非负值,并且达到维数约减。非负矩阵分解现在是计算机视觉、数字信号处理、生物信息工程和机器学习等研究领域中应用最多的高维数据处理方法之一。
NMF是一个有界优化问题,优化目标为:
可通过迭代使用最小二乘法进行优化:在每轮交替迭代中先固定H,并基于非负最小二乘法求解法得到W,其次固定W同理求出H。求解W或H的方法有很多并且可以不痛,因为可对H和W进行正则化,同时防止过拟合。主流的求解方法包括倍增更新法、投影梯度下降法等。
NMF算法的主要优点有:①具有可解释性,实现简便,占用内存存储少。②处理大规模数据更快更便捷。
NMF算法的主要缺点有:①NMF的唯一先验是只约束了W和H的非负性,但没有考虑到对于该先验以及W内部元素间的相关性。②NMF无法处理复杂的任务,因为其中只用一层表示隐变量。
①用于图像分析,首先图像任务的数据集通常很大,并且图像在计算机中的信息一般按照矩阵的形式进行存放,其次数据处理的中间存储也是矩阵形式。图像中大量矩阵运算的特点,让非负矩阵分解方法有了巨大的作用空间。
②用于文本聚类,文本不仅内容多,而且一般是无结构的数据,文本数据在算法中也通常以矩阵的形式被处理。直接对原始数据处理不进行降维也是非常困难的,文本矩阵具有高维稀疏的特征,适合使用NMF算法,对原始文本数据进行降维也是非常困难的。
③用于语音处理,语音数据中也包含大量的数据信息并且均通过矩阵运算处理。在现阶段,非负矩阵分解可实现有效的语音特征提取。与此同时非负矩阵分解的计算量小,使得可以在实际部署中节约计算资源、提高系统实时性。