语料库研究者对标注这一术语的使用不尽一致,大致可分为三类。①标注与标记交替使用。指所有为语料库附加信息的活动,包括结构标记(即文本外部信息内部结构信息)、词性赋码(即POS赋码)、语法标注(包括句法分析、语义标注)、话语标注等。②区分标注与标记。前者指为语料库附加解释性语言信息,如词性、句法、语义、语用等;后者指对表达文本的正字法特征标记,如字体、样式、标题等。③与第二种主张相同,但只使用标注这个术语及含义。以上观点虽然不尽相同,但分歧不大。它们的共同点有两个:①标注主要指语言信息的附加。②语料库内部语言信息的附加与文本结构信息的记录不能混为一谈。标注除词性标注、语法标注和话语标注之外,还指所有基于某种理论模型或预设方案为语料库文本添加标签的活动,例如错误赋码。标记在表达文本结构的正字特征之外,还可以是一切有关文本识别信息的记录,如文献信息、提取时间、来源、文类、类型等。
标注的具体实施是对文本某些元素或特征添加预定的标签,通常分为计算机自动标注、机助人工标注及人工标注。运用标注时,包含:①标注方案。指一系列预定的码集和标注规则。②标注过程。包括标注使用的软件、技术和程序。③标注产品。指标注过的语料库文本。标注需要遵循一定的标准和方案实施。