机器翻译评价与机器翻译的发展密切相关。1954年,美国乔治敦大学和IBM公司共同开发了最早的机器翻译系统,研究界对机器翻译研究的前景寄予了厚望。然而,1966年,美国科学院语言自动处理咨询委员会(ALPAC)发表的《语言与机器》调查报告提出了一套机器翻译评价的体系并对当时的机器翻译研究做出了否定的评价,自此机器翻译的研究进入了低潮。1970年代后期,机器翻译研究开始复苏,机器翻译评价也随之迅速发展。美国国家标准和技术研究所(NIST)自2002年以来几乎每年都举办一次规模宏大的国际机器翻译评测。中国机器翻译研讨会(CWMT)也成功组织过六次CWMT评测。这些活动对于推动机器翻译技术的研究和开发产生了积极而深远的影响。
机器翻译评价是一项复杂而具挑战性的研究课题。首先,机器翻译一般不存在标准答案,只要语义一致,一个句子可以对应多个正确的译文。其次,对于机器翻译,不同的用户有不同的要求,一些人要求译文的质量要高,另一些人要求只要译文能读懂即可。此外,人们要求机器翻译评价的原因也各自有所侧重。所以说,很难制定出统一的评价标准,因此出现了多种机器翻译评价方法。
从评价类型来看,机器翻译评价可分为三类:第一类为操作性评估(Operational Evaluation),有时也称作经济评估(Economic Evaluation)。这种评估比较机译与人译每字或每页的花费以及所耗的时间,它所关心的主要是机译系统的经济价值。第二类为分类评估法(Typological Evaluation)。一般的分类评估类似错误分析法,根据译文中发现的错误类型和数量进行评价。更通用的做法是预先制定覆盖面广的系统的测试集,测试集中每一个测试项目代表机译系统可能遇到或者它应该了解的语言现象,然后根据各机译系统对测试集中句子的翻译情况予以评分。第三类为说明性评估(Declarative Evaluation)。说明性评估的关键在于制定质量标准。质量标准通常是一个等级量表,会按评价标准划分成几个等级,评测人按此标准为每一个机器翻译的句子评分。
从评价实现方式来看,机器翻译评价又可分为人工评价和自动评价两类。人工评价的传统指标主要是“忠实度”(fidelity)和“流利度”(fluency)。“忠实度”反映的是机器译文在多大程度上忠实于原文所要表达的意思,而“流利度”则用于评价译文本身是否流畅、是否符合目标语言的表达习惯等。人工评价结果一般比较准确,但是人工评测往往具有主观性,成本比较高,周期比较长,不利于研究人员快速了解机器翻译系统修改后的质量变化情况。自动评价虽然准确率相对较低,但是可以很好地克服以上缺点。
主流的自动评价方法通过比较参考译文和机器译文之间的相似度来评价翻译结果。机器译文与参考译文之间的相似度越高,结果越好。根据相似度计算策略的不同,又可细分为“基于N-gram匹配的方法”“基于编辑距离的方法”和“基于语言学的方法”。其中,最有代表性和被广泛使用的评价是IBM公司于2002年提出的基于N-gram的BLEU指标。另一类自动评价方法不需要参考译文,也称为质量估计(QE),主要根据译文特征将译文质量简单分为“好”或“坏”,或者对人工译文和机器译文进行区分。QE常被视作分类问题,可以通过机器学习算法来实现。还有一类属于诊断性自动评价,通过自动构建语言学测试点,可以从词语、成语、词法、语法等方面对译文进行多维度评价,其代表方法WoodPecker已数次被CWMT评测所采用。
伴随着统计机器翻译(SMT)的发展,自动评价方法的研究得到越来越多的关注。自动评价方法本身也需要被评价。自动评价方法的自身可靠性验证被称为“自动评价方法之评测”。由于自动评价方法在不同环境中的表现并不相同,针对自动评价并没有形成统一、可靠的评测体系,普遍还是以自动评价方法与人工评价的相关性来体现,常用的有Pearson系数、Spearman系数和Kendall。NIST评测也专门设立了一个对机器翻译自动评价方法进行评测的共享任务。
总之,仍然没有一种评价方法可以全面确定翻译系统的整体性能。在实践当中,只有通过对不同评价方法的结果进行综合分析,才能提供一定应用环境下翻译系统性能可靠而全面的评价。