由美国学者S.迪尔韦斯特[注]等人于1988年提出。潜在语义索引能够挖掘文档集合中的潜在语义,即潜在主题,并以潜在语义为特征空间来进行建模,实现降维和去稀疏化的效果。潜在语义索引自上而下由文档、潜在语义、词汇3个方面构成,并假设意义相近的词汇往往会出现在一起,构成潜在语义,这些潜在语义体现为词汇之间的线性组合。
潜在语义索引通过矩阵的奇异值分解把文档从高维的向量空间中映射到低维的潜在语义空间中,消除了原始特征空间中的词汇的相关性,同时也减少了运算的复杂度。
潜在语义索引的过程为:①分析文档集合,抽取词汇为特征空间,构建文档-词汇矩阵。②对文档-词汇矩阵进行奇异值分解(图1)。③对奇异值矩阵的对角元素排序,选取特征值最大的前k个,其余对角元素置0。选取文档-潜在语义矩阵相应的k列和潜在语义-词汇矩阵相应的K行,重新构建表达空间(图2)。
潜在语义索引由于其简单的思路和良好的可操作性,被广泛用于很多实际系统中,如谷歌建议(Google Suggest)、谷歌反作弊策略和百度蜘蛛算法等。虽然潜在语义索引有众多的优点,但是其缺点也很明显:①潜在语义索引是通过舍弃不重要的潜在语义来达到降维效果的,因此在降维的过程中不仅丢失了信息,而且还改变了信息。②降维后的数据集仅仅是对原数据集的一种近似而非等价形式,且降维幅度越大,与原信息的偏离就越大。③潜在语义索引不能很好地解决新词汇和一词多义的问题。