文献特征项包括文献的外部和内部特征,如题名、作者、关键词、机构等。文献特征项描述的信息同时出现的现象称为共现。共现分析的目的是从中挖掘和发现潜在的知识及其关联。共现分析的提出和发展是一个不断从相关的学科理论和方法中吸收、演化和改进的过程。心理学的邻近联系法则和知识结构及映射原则是共现分析的两大理论基础。
共现分析的研究对象较广,包括对文本中词汇、标引词、分类号和其他编入文献和文献著录的有意义的字段等。根据针对的对象不同,共现分析可分为3种类型:共引分析、共词分析、共篇分析。
按照共现分析的方法论基础和研究目的,其应用的研究流程可分为3个步骤:①数据抽取。共有两种抽取方式,全文直接抽取和字段间接抽取。全文直接抽取是指使用专门的软件工具从全文文本中直接抽取分析对象,用以分析词汇之间的关联关系;字段间接抽取是指在数据库中从关键词、标题、摘要、分类号和其他编入文献著录的字段中抽取分析对象,用以分析文献内容关联。②构造共现矩阵或词汇向量。建立共现矩阵需要统计文献内的词汇相似信息,由于词汇数量的庞大往往不能比较文献内所有词汇对的相似度,通常根据一定规则选择一定数量的词汇进行比较;构造词汇向量则需要关注那些代表文献或概念特征的标引词,计算主要标引词的词汇向量。③数据分析。分析方法有两种,一种是利用概率模型进行统计建模,另一种是分析词汇关联度。