从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。命名实体是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题。
国外对于英文命名实体识别的研究开始比较早。由于英文命名实体的识别只需考虑词本身的特征而不涉及分词问题,因此实现难度相对较低。中文内在的特殊性决定了在文本处理时首先要进行词法分析,因而中文命名实体识别的难度要比英文的难度大。中文命名实体识别起步较晚,美国英特尔(Intel)公司中国研究中心开发了抽取中文命名实体以及这些实体间相互关系的信息抽取系统,该系统利用基于记忆的学习算法获取规则,用以抽取命名实体及它们之间的关系。
命名实体是命名实体识别的研究主体,一般包括3大类(实体类、时间类和数字类)和7小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体。由于数量、时间、日期、货币等实体识别通常可以采用模式匹配的方式获得较好的识别效果,相比之下人名、地名、机构名较复杂。这些实体中以机构名和生物实体识别难度最大,普遍存在嵌套和缩写的识别问题。从研究的发展看,由原来的单独针对人名、地名等进行识别发展到开始采用统一的方法同时进行各类中文命名实体的识别,识别效果也得到了提高。
命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。命名实体识别的主要技术方法包括:基于规则和词典的方法、基于统计的方法、二者混合的方法等;也可以按机器学习来划分为有监督学习、半监督学习和无监督学习。