伴随着社交媒体的发展,大量社交数据实时产生,具有多对话、文本短、噪声大等特点。为有效集成和访问这类数据,社交标注系统应运而生。
标签能够对不同类型的内容进行统一的表示,对内容进行细化分类和索引,帮助用户按照自己的方式组织感兴趣的内容。
语义标注是通过参照在本体里的URI(uniform resource identifier)的元数据,从本体(类、实例、属性或者关系等)里标注在文本里出现的概念。社交媒体语义标注的主要方式是信息抽取。关联开放数据资源是语义标注本体知识的关键来源。最主要的社交标注方式包括关键词抽取、基于本体的信息抽取,以及情感监测、观点分析和跨媒体联接等。关键词抽取,即从博文、帖子等文档中自动抽取关键词作为标签,是一种基于浅表知识的传统语义标注方式。基于本体的信息抽取一般以维基百科等开放数据为语料库,参照其中的URI元数据标注在文档中出现的实体,但标引较短文档的准确率不高。
社交媒体语义标注方法有诸多局限性。很多方法就像关键词和主题抽取一样,只能解决浅表问题,而基于本体的实体和事件识别并没有取得像在较长的文档上那样高的准确度和召回率,改进现有方法的思路是联接用户资料、社交网络、新闻热点等语境信息来辅助标引。另一种有待尝试的策略是将广泛的网络数据纳入语料库。作为协同工作新模式,充分利用群体智慧的众包也被引入来解决海量社交数据的语义标注问题。