首页 . 文学 . 语言文字 . 计算语言学及语料库语言学 . 计算语言学 . 书面汉语自动切词

书面汉语自动切词

/automatic word segmentation of writing Chinese/
条目作者冯志伟

冯志伟

最后更新 2024-07-10
浏览 187
最后更新 2024-07-10
浏览 187
0 意见反馈 条目引用

使用计算机对于书面汉语文本进行自动切分,使用空格来分割单词与单词之间的界限。

英文名称
automatic word segmentation of writing Chinese
所属学科
语言文字

书面汉语的书写形式不同于英语德语法语等印欧语言。英语、德语、法语等印欧语言在书写时,词与词之间用空格分开,因而词与词之间的界限在书面上是泾渭分明的;而汉语在书写时,词与词之间不留空白,一个汉语句子就是一大串前后相续的汉字的字符串,词与词之间的界限,被前后相续的汉字淹没得无影无踪了。有的学者曾经提出汉语书面文本实行词式书写的建议,但由于长期的书写和阅读习惯,人们对这种词式书写并不欢迎,目前实行词式书写的条件还不成熟。为了促进中文信息处理的发展,只得通过技术来解决这个问题,在中文信息处理中,实行书面汉语自动切词。

在汉语的自然语言处理中,凡是涉及句法、语义的研究项目,都要以词为基本单位来进行。句法研究组词成句的规律,没有词就无所谓组词成句,因而也就无所谓句法。语义是语言中概念与概念之间的关系,而词是表达概念的,没有词也就无所谓语义研究。词是汉语语法和语义研究的中心问题,也是中文信息处理的关键问题。另外,词的问题也关系到智能化计算机的研制。智能化计算机具有联想、判断、推理的功能,而联想、判断和推理都是要以词为基本单位的句子来表达的,不研究词的自动切分问题,智能化计算机的研究就会成为空谈。

汉语的形态不丰富,书面汉语的单词基本上没有形态变化。在中文信息处理中,书面汉语形态分析的主要任务不是分析单词的形态变化,而是进行单词的自动切分,使被前后相续的汉字淹没的单词间的界限暴露出来。词是语言中最小的能独立运用的单位,利用计算机把汉语的一个句子、一篇文章、一部著作中的单词逐一地切分出来,才有可能对汉语进行进一步的分析。因此,书面汉语自动切词是汉外机器翻译、书面汉语文献自动标引、书面汉语的自动检索、书面汉语的搜索引擎、书面汉语自然语言理解等研究工作的基础和前提。

书面汉语的词是由汉字构成的。汉字的构词极为灵活,计算机在对一串连续的汉字字符进行切词时,可能会有多种切词方式,常令计算机举棋不定,甚至误入迷途,造成切词的失败,或者得出错误的切分结果。书面汉语自动切词是中文信息处理的一个难点。

汉语书面文本自动切词方法主要有以下几种。

①最大匹配法(简称MM法)。在计算机中存放一个已知的词表,这个词表叫作底表。从被切分的语料中,按给定的方向顺序截取一个定长的字符串,通常为六至八个汉字。这个字符串的长度,叫作最大词长。把这个具有最大词长的字符串与底表中的词相匹配 ,若匹配成功,则可确定这个字符串为词。计算机程序的指针向后移动与给定最大词长相应个数的汉字,继续进行匹配。否则,则把该字符串逐次减一,再与底表中的词进行匹配,直到成功为止。MM法的原理简单,易于在计算机上实现,时间复杂度也比较低。但是最大词长的长度比较难于确定,如果定得太长,则匹配时花费的时间就会过多,算法的时间复杂度明显提高;如果定得太短,则不能切分长度超过这一规定长度的词,导致切分正确率的降低。

②逆向最大匹配法(简称RMM法)。这种方法的基本原理与MM法相同,不同的是切词时的扫描方向。如果MM法的扫描方向是从左到右取字符串进行匹配,则RMM法的扫描方向就是从右到左取字符串进行匹配。实验表明,RMM法的切词正确率比MM法更高一些。但是,RMM法要求配置逆序切词词典,这样的词典与人们的语言习惯不相符合,修改和维护都不太方便。

③逐词遍历匹配法。这种方法是把词典中存放的词按由长到短的顺序,逐个与待切词的语料进行匹配,直到把语料中的所有的词都切分出来为止。由于这种方法要把在词典中的每一个词都匹配一遍,需要花费很多时间,算法的时间复杂度相应增加,切词的速度较慢,切词的效率不高。

④双向扫描法。分别用MM法和RMM法进行正向和逆向的扫描和初步的切分,并将用MM法初步切分的结果与用RMM法初步切分的结果进行比较:如果两种结果一致,则判定切分正确;如果两种结果不一致,则判定为疑点。这时,或者结合上下文有关的信息,或者进行人工干预,选取一种切分为正确的切分。由于要做双向扫描,时间复杂度增加,而且为了使切词词典能够同时支持正向和逆向两种顺序的匹配和搜索,词典的结构比一般的切词词典要复杂得多。

⑤最佳匹配法。在切词词典中,按词的出现频率的大小排列词条,高频率的词排在前,低频率的词排在后,从而缩短查询切词词典的时间,加快切词的速度,使切词达到最佳的效果。这种切词方法对于切词的算法没有什么改进,只是改进了切词词典中单词的排列顺序。它虽然降低了切词的时间复杂度,却没有提高切词的正确率。

⑥设立切分标志法。在书面汉语中存在的切分标志有两种。一种是自然的切分标志,如标点符号。词不能跨越标点符号而存在,标点符号必定是词的边界之所在。另一种是非自然的切分标志,如只能在词首出现的词首字、只能在词尾出现的词尾字、没有构词能力的单音节单纯词、多音节单纯词、拟声词等。词不能跨越这些标志而存在,它们同样是词的边界之所在。如果人们搜集了大量的这种切分标志,切词时先找出切分标志,就可以把句子切分成一些较短的字段,然后再用MM法或RMM法进一步把词切分出来。使用这种方法切词,要额外消耗时间来扫描切分标志,还要花费存贮空间来存放非自然的切分标志,使切词算法的时间复杂度和空间复杂度都大大增加了,而切词的正确率却不能提高。所以,采用这种方法的自动切词系统不多。

⑦有穷多级列举法。这种方法把现代汉语中的全部词分为两大类,一类是开放词,如名词、动词、形容词等,它们的成员几乎是无穷的;另一类是闭锁词,如连词、助词、叹词等,它们的成员是可以枚举的。切词时,先切出具有特殊标志的字符串,如阿拉伯数字、拉丁字母等,再切出可枚举的闭锁词,最后再逐级切出开放词。这是一种完全立足于语言学的切词方法,在计算机上实现起来还有一定的困难。

⑧联想-回溯法。这种方法要求建立三个知识库——特征词词库、实词词库和规则库。首先将待切分的汉字字符串序列按特征词词库分割为若干子串,子串可以是词,也可以是由几个词组合而成的词群;然后再利用实词词库和规则库将词群再细分为词。切词时要利用一定的语法知识,建立联想机制和回溯机制。联想机制由联想网络和联想推理构成,联想网络描述每个虚词的构词能力,联想推理利用相应的联想网络来判定所描述的虚词究竟是单独成词还是作为其他词中的构词成分而存在。回溯机制主要用于处理歧义句子的切分。联想-回溯法虽然增加了算法的时间复杂度和空间复杂度,但是其切词正确率较高,是一种行之有效的方法。

⑨基于词频统计的切词法。这种方法利用词频统计的结果来帮助在切词过程中处理歧义切分字段。例如,AB是一个词,BC是另一个词,如果词频统计的结果说明了BC的出现频率大于AB的出现频率,那么,在处理歧义切分字段ABC时,就把BC作为一个单词,A作为一个单词,而排斥AB作为一个单词的可能性,也就是把ABC切分为A/BC。这种方法的缺点是,由于只考虑词频,导致出现频率较低的词总是被错误地切分。

⑩基于期望的切词法。这种方法认为,一个词的出现,它后面紧随的词就会有一种期望,根据这种期望,在词表中找出所对应的词,从而完成切分。这种方法增加了切词的空间复杂度,但在一定程度上提高了切词的正确率。

此外,还有基于专家系统的切词法和基于神经网络的切词法,利用人工智能的方法来进行汉语书面语的自动切分,这些方法也取得了较好的成绩。

在上述切词方法中,MM法、RMM法和逐词遍历法是最基本的机械性的切词方法,其他的几种方法都不是纯粹意义上的机械性的切词方法。在实际的汉语书面语自动切词系统中,一般都是几种方法配合使用,以达到最理想的切词效果。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!