首页 . 理学 . 计算机科学技术 . 人工智能 . 自然语言处理 . 中文信息处理

民族语言文字信息处理

/Minority language information processing/
条目作者刘汇丹吴健
条目作者刘汇丹

刘汇丹

吴健

吴健

最后更新 2024-12-05
浏览 135
最后更新 2024-12-05
浏览 135
0 意见反馈 条目引用

研究计算机对中国少数民族语言文字信息进行各种加工处理的学科。是中文信息处理的一个分支。

英文名称
Minority language information processing
所属学科
计算机科学技术

中国有56个民族,在用语言约80多种,记录这些语言的文字约有30种。少数民族语言文字由于其自身的特点,有时需要使用有别于汉语的处理方法。

在书写方向方面,维吾尔文、哈萨克文、柯尔克孜文横排自右向左书写;传统蒙古文、满文、锡伯文竖排自上向下书写,各列之间自左向右排列。在与英语、汉语混合排版时,需要复杂的算法来布局以符合文档中的主语言的阅读习惯,同时尽量兼顾其他语言的阅读习惯。

少数民族文字在字形显现方面也有各自的特色。藏文的音节由一个或多个辅音字母及元音符号构成,存在多个字母上下叠加形成一簇的现象。为了处理竖向叠加,国际编码字符集为大部分辅音字母都分配了两个码位,分别用于表示独立形式和下加组合形式,但在语言上两个码位表示的是同一个字母。个别字母还因为有变体而分配了更多码位。传统蒙古文、满文、锡伯文等文字的字母的字形随着其所处的词内位置而变化,个别字母的变体多达7种以上,而且存在多个字母共用变体字形的现象。维吾尔文、哈萨克文、柯尔克孜文中也有类似的字母变形,而且存在连体字现象。字形更奇特的是纳西族的东巴文,它是一种原始的图画象形文字。

有些少数民族语言还有专用的标点符号和数字字符,如藏文和传统蒙古文中都有类似阿拉伯数字那样的数字符号。藏文中甚至还有表示“半数”(0.5、1.5、2.5等)的符号。藏文中使用最频繁的标点符号是音节点,它用于分隔音节,但同时还承担了词语分隔符的功能,另外藏文中又存在省略音节点,从而形成紧缩音节的现象。因此,与汉语类似,藏文信息处理一般也需要先分词。传统蒙古文中还存在需要使用额外的控制字符的情形,包括窄宽度空格、元音间隔符以及控制字母变体形式的变体选择符、零宽连接符、零宽禁止连接符等。

除了基本的输入、显示、排版布局之外,民族语言文字在词法分析、句法分析、语义分析等方面的处理大体上与汉语、英语类似,很多用于英语、汉语的信息处理技术也都可以用在民族语言文字信息处理中。但有些少数民族语言由于使用人群规模小、语言资源稀缺,那些需要使用大规模语言资源做训练的技术很难收到满意的效果。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!