汉字信息处理系统是中文信息处理系统中关键的部分,可以说是中文信息处理系统借以建立的工具。但是汉字信息处理系统的研制成功,一般只解决了汉字的编码、输入、存储、编辑和输出问题,至于加工或处理什么、如何加工,则是中文信息处理的内容。中文信息处理系统(纯口语的系统和拼音文字的系统除外)以汉字信息处理系统作为自己的必备部件,同时还带有为不同目的服务的各种应用软件。中文信息处理系统的另一特点是以词而不是以单个汉字作为加工的基本单位。中文信息处理和中国少数民族语言文字的信息处理都是自然语言处理的一部分。
已开展的中文信息处理研究有如下几项。
①字信息处理。这是一项最关键的语言工程。汉字如不能进入计算机,图书情报工作自动化、印刷出版现代化、办公室事务自动化都将化为空谈。近年来,汉字信息处理研究得到很大发展。曾设计了500多种汉字编码方案,其中上机通过试验或已被采用作为输入方式的,已达数十种之多。研制了上百种汉字信息处理系统和设备。汉字信息处理除了在汉字编码方面进行研究外,还制成了若干种汉字输入输出专用设备,成套的汉字信息处理系统(包括汉字编码法、通用中外文键盘、通用中外文显示器、汉字打印设备、汉字库和系统软件等)已批量生产。中国研制的计算机激光汉字照排系统已在国内外广泛应用。中国的字模生产有良好的基础,1985年5月,国家标准局公布了《信息交换用汉字15×16点阵字模集及数据集》和《信息交换用汉字24×24点阵字模集及数据集》两项标准,后来又分批公布了32×32点阵……以至256×256点阵的标准。这些标准为各种设备的设计和推广提供了有利条件。为摆脱繁重的编码输入工作,汉字的光电自动识别研究提上了日程。有越来越多的单位从事手写体和印刷体的识别研究。中国科学院自动化研究所的汉王联机手写汉字识别系统能识别两万多汉字,汉王OCR能识别GB 2312—1980二级汉字的多种印刷字体,正确率都相当高,达到实用水平。手写体汉字识别也达到了实用水平,成为计算机和手机汉字输入的重要手段。为了使各种系统之间的信息交换有共同性,也为了使各种输入输出设备的设计有统一的根据,1981年,国家标准局公布了《信息交换用汉字编码字符集·基本集》(简称《汉字标准交换码》GB 2312—1980)。它根据汉字使用频度制定,共分两级,一级3755个字,二级3008个字,共6763个字。为了满足少数用字量超过基本集的用户和中国香港、中国台湾等地的需要,后来又制定了多个辅助集和国家标准扩充码(GBK)。2000年3月,信息产业部和原国家质量技术监督局联合发布了《信息交换用汉字编码字符集·基本集的扩充》标准(GB 18030—2000),收录了27 484个汉字。
②机器翻译。计算机和语言的最早结合始于机器翻译。1956年,机器翻译被列入中国科学工作的发展规划。1957年,机器翻译研究工作正式开始,这是中文信息处理的第一项工程。首先研究的是俄汉机器翻译,并于1959年成功地进行了试验,译文输出是代码,而不是汉字,因为当时没有汉字输出装置。1958年底至1960年初,又研制了一套英汉机器翻译规则系统。1966~1975年工作处于停顿状态。已研制出英汉、俄汉、法汉、日汉、德汉等机器翻译系统以及汉译英、法、德、俄、日的多语言机器翻译系统。21世纪以来,使用基于大规模语料库的统计机器翻译方法以及深度机器学习的方法,机器翻译的翻译质量逐步提高,已经逐渐实用化。口语机器翻译也取得了长足的进展。
③中文信息检索。为了提供标引和检索蓝本,1979年,中国科学技术信息研究所编辑出版了《汉语主题词表》(10卷)。截至21世纪二十年代,中国有上百个单位开展电子计算机信息检索研究,不少单位进行定题信息服务(SDI),并建立各种汉字文献数据库。信息检索已经成了日常生活中获取信息的重要手段。
④言语统计。1978年语言研究所和计算技术研究所在合作研究ECMT-78英汉机器翻译系统的过程中曾编制一个排序统计程序,加工过一些外文资料和汉语拼音资料。这是计算机汉语统计的初步尝试。此后,出现了一批机编频率辞书,如《现代汉语频率词典》(1986)、《现代汉语常用词词频词典(音序部分)》(1990)。前者在180万字的语料基础上进行,先用人工仔细切分统计,然后用计算机进一步处理。后者在2000万字的语料基础上采用机器切分方法进行。二者的分词标准很不相同,前者过严,后者过宽。
⑤汉语理解系统。随着人工智能的进展,语言研究所、心理研究所、自动化研究所和一些大学开展了汉语理解系统(人机对话)的研究。目前只限于书面语言理解,而且主要是问答型。输入方式采用汉语拼音。上机试验结果表明,有的系统已有识别多种句型的能力。汉语语音理解系统也在研制之中。
⑥计算机辅助语言教学。随着计算机的普及和网络的发展,多媒体(光盘)语言教学和现代化远程语言教学(网络)充分发挥了计算机辅助语言教学的作用。很多大学建立了多媒体演播室和远程教育中心,不仅解决了教师短缺和因材施教的问题,而且大大提高了学习效率。
⑦语音识别和言语合成。语音打字的任务早在1958年就已提出,1964年实现了“元音识别机”,1970年前后又实现了10个口呼汉语数字的识别机。但利用电子计算机进行识别研究,则始于1972年。声学研究所利用语音图样匹配方法在一定范围内实现了单呼语言的识别,正确率达99.5%以上。中国科学技术大学讯飞公司开发的语音识别和语音合成的产品已经达到了实用的水平。
⑧方言研究。国外有人曾将汉语方言资料输入计算机,让计算机提供各个方言声母、韵母、声调的出现频率,以及鼻化、腭化现象分布的百分比。这些数据不仅有利于方言的共时描写和比较,而且还有利于检验各种历史构拟假说的正确性。中国已开始利用计算机进行方言研究和绘制方言地图。
⑨索引、词表和词典的编制。1980年武汉大学等单位开始语言自动处理工作,主要是编制逐字索引,同时提供汉字统计数据。相继印出《骆驼祥子》《倪焕之》《雷雨》《日出》和《北京人》的逐字索引,以及《论衡》的语词索引和统计资料。利用计算机编制词表、词典也已提上日程。1988年语言研究所编制出版了《多语对照语言学词汇(英、法、德、俄、中)》。机编词典除能加快辞书的编辑出版过程外,还可以随时扩充、修改,保持词典的先进性。20世纪80年代以后,机编词典逐步成了主流。
随着互联网的迅猛发展,人们在享用互联网带来的各种便利的同时,却又被如何从浩如烟海的网上资源中,如何快速、高效地查找自己所需要的信息困扰,典型的研究方向有:自动词法与句法分析、自动语义分析、自动篇章分析、语言表示与深度学习、知识图谱与计算、文本分类与聚类、信息自动挖掘、信息自动抽取、情感分析、自动文摘、自动问答、信息过滤、社会媒体处理、多模态语言信息处理、基于内容的快速信息检索、基于个性的信息推荐、医疗健康信息处理、数字化图书馆、信息网格、少数民族语言信息处理等。因此中文信息处理技术必须解决网络环境下的、大规模的、信息(包括文本信息和语音信息)智能访问、加工处理、自动分析、自动理解。现阶段,中文信息处理的特征主要表现为:统计方法与规则方法相结合、基础理论研究与实用系统并重、面向互联网的大规模真实文本的智能信息处理。