现代汉语的单词有双音节化的倾向。双音节化导致音节之间出现两种相反的现象,一种是“相吸”,另一种是“相拒”。其基本规律是“单单相吸”“双双相拒”“吸单拒双”。
所谓“单单相吸”,是指两个单音节的自由语素相吸而联结成一个合成词,不切分。例如,“人”和“民”相吸而联结成合成词“人民”,不切分;“香”和“烟”相吸而联结成合成词“香烟”,不切分。单音节的区别词和单音节名词构成的组合,单单相吸而不切分。例如,“雄鸡”“母狗”“男人”。单音节代词“本”“每”“各”“诸”后接单音节名词时,单单相吸而不切分。例如,“本社”“每人”“各位”“诸位”。但是,当它们后接双音节名词时,就排斥双音节名词而切分为两个单位,表现出一种“吸单拒双”的倾向。例如,“本/公司”“各/部门”。单音节名词重叠式,单单相吸而不切分。例如,“人人”“家家”。单音节动词重叠式,单单相吸而不切分。例如,“走走”“看看”。单音节形容词重叠式,单单相吸而不切分。例如,“红红”“久久”单音节量词重叠式,单单相吸而不切分。例如,“件件”“个个”。单音节副词重叠式,单单相吸而不切分。例如,“常常”“仅仅”。
“双双相拒”指两组双音节结构往往有相拒的倾向而分写为词组。例如,“讨论” 是一个双音节结构的合成词,它的ABAB型的重叠形式是“讨论讨论”,由两个双音节结构组成,这两个双音节结构彼此相拒,应分写为词组,分写为“讨论/讨论”。双音节形容词的ABAB型重叠式,双双相拒而切分为“AB/AB”。例如,“高兴/高兴”“热闹/热闹”。双音节状态词的ABAB型重叠式,双双相拒而切分为“AB/AB”。例如,“碧绿/碧绿”“雪白/雪白”“浅黄/浅黄”。双音节数词的ABAB型重叠式,双双相拒而切分为“AB/AB”。例如,“许多/许多”“很多/很多”。双音节数量词的ABAB型重叠式,双双相拒而切分为“AB/AB”。例如,“一个/一个”。但是,双音节动词的AABB型重叠式,由于AA和BB切分后意义发生变化,算一个切分单位。例如,“勾勾搭搭”“比比画画”。双音节形容词的AABB型重叠式,由于AA和BB切分后意义发生变化,算一个切分单位。例如,“高高兴兴”“热热闹闹”。双音节名词的AABB型重叠式,由于AA和BB切分后意义发生变化,算一个切分单位。例如,“山山水水”“方方面面”。双音节数词的AABB型重叠式,由于AA和BB切分后意义发生变化,算一个切分单位。例如,“多多少少”“许许多多”。
“吸单拒双”指当双音节结构与单音节结构相遇时,这个双音节结构能够把单音节结构吸引过来而形成合成词,而当双音节结构与另一个双音节结构相遇时,这个双音节结构往往会排斥另一个双音节结构而形成词组。例如,“图书”是个双音节结构的合成词,当它与单音节语素“馆”相遇时,能够把这个单音节语素“馆”吸引过来,形成“图书馆”这个合成词,不能切分; 但是,当它与双音节结构“目录”相遇时,却排斥这个双音节结构,而形成一个词组“图书目录”,应分写为“图书/目录”两个切分单位。有时,三音节结构也会把它后面的单音节语素吸引过来而形成合成词,也具有“吸单拒双”的规律。例如,“天文学”这个三音节结构,与单音节语素“书”相遇时,会把这个单音节语素吸引过来而形成合成词“天文学书”,不能切分;而当三音节词“天文学”后接双音节词“理论”时,则表现出排斥的倾向,应该切分为“天文学/理论”。单音节代词后接名词时,也表现出这种“吸单拒双”的倾向。“吸单拒双”的倾向不仅是双音节词的特性,而且三音节词和单音节词也表现出这种“吸单拒双”的倾向。这是汉语书面文本自动切分在语音方面的一个普遍规律。
双音节词“吸单拒双”中的“吸单”指前面的双音节词吸引它后面的单音节词,是“前双吸后单”;单音节词“吸单拒双”中的“拒双”,是指前面的单音节词拒绝后面的双音节词,是“前单拒后双”。虽然两者都是双音节词与单音节词相遇,但由于前后位置不同,吸引或拒绝的情况也就大不一样。所以不能笼统地说双音节词与单音节词之间是相吸或者相斥的关系,而应该注意它们前后位置的不同对于相吸相斥规律的影响。
这种“吸单拒双”的倾向,在地名的切分中也会表现出来。当地名后有“省”“市”“县”“区”“乡”“镇”“村”“旗”“州”“都”“府”“道”等单音节的行政区划名称时,前面的词会马上把这样的单音节名称吸过来,形成单独的切分单位。例如,“四川省”“天津市”“景德镇市”“黑龙江省”“牡丹江市”“正定县”“海淀区”“朝阳区”“东升乡”“双桥镇”“南化村”“华盛顿州”“俄亥俄州”“东京都”“大阪府”“北海道”“长野县”“开封府”等。 当地名后的行政区划名称为双音节时,则排斥双音节的名称,形成两个切分单位。例如,“芜湖/专区”“宣城/地区”“深圳/特区”“厦门/特区”“华盛顿/特区”。当地名后有表示地形地貌的单音节的普通名词“江”“河”“山”“洋”“海”“岛”“峰”“湖”时,则相吸而形成单独的切分单位,不予切分。例如,“鸭绿江”“亚马孙河”,“喜马拉雅山”“珠穆朗玛峰”“地中海”“大西洋”“洞庭湖”“济州岛”。当地名后有表示地形地貌的双音节的普通名词时,则相拒而成为两个切分单位。例如,“台湾/海峡”“华北/平原”“帕米尔/高原”“青藏/高原”“南沙/群岛”“阿尔卑斯/山脉”。当地名后有表示自然区划的单音节普通名词,如“街”“路”“道”“巷”“里”“町”“庄”“村”“弄”“堡”时,则相吸而形成单独的切分单位,不予切分。例如,“中关村”“长安街”“学院路”“景德镇”“吴家堡”“庞各庄”“三元里”“彼得堡”“北菜市巷”。当地名后有表示自然区划的双音节普通名词时,则相拒而切分为两个切分单位。例如,“米市/大街”“蒋家/胡同”“陶然亭/公园”。
在民族名称、语言文字名称的切分中也表现出这种“吸单拒双”的倾向。民族名称后面的单音节词“族”一律不切分,整个民族作为一个切分单位。例如,“蒙古族”“朝鲜族”“哈萨克族”“维吾尔族”。但是,如果后面接双音节的词“民族”,则切分。例如,“蒙古/民族”“朝鲜/民族”“中华/民族”。语言文字名称后面的单音节词“语”和“文”一律不切分,整个语言文字名称作为一个切分单位。例如,“蒙古语”“维吾尔语”“斯拉夫语”“日耳曼语”“蒙古文”。但是,当后面接双音节词“语言”和“文字”时,则切分为两个单位。例如,“印欧/语言”“吐火罗/文字”。
双音节化判定法是确定汉语文本自动切分单位的一个非常重要而且行之有效的方法。这种双音节化反映了汉语韵律系统的特征,汉语韵律的基本形式是双音节,这种双音节,就是汉语韵律的音步,音步是汉语韵律的单位,也是汉语书面文本的切分单位,只要满足音步,就可以将其判定为词。如果某一字符串等于韵律单位,那么,该字符串就会被韵律“压”成词;如果某一字符串大于韵律单位,那么,该字符串就往往会被韵律“抻”为词组。在现代汉语中,存在着“韵律压词,韵律抻语”(“语”就是短语,也就是词组)的规律。