尽管词网中包含合成词、短语、惯用语和搭配关系描述,但是,词网的基本单位还是单词。词网包括动词、名词、形容词-副词3个数据库。词网中一个完全的含义条目包含单词、同义词、定义以及一些使用实例。
在词网中不区分同形关系与多义关系,同形词也就是多义词,一个多义词可以有若干个不同的含义。因此,词网中含义的数量比单词的数量大。
词网中单词及其含义的数量是相当可观的。词网1.6(WordNet 1.6)的规模如下:
词网1.6的规模展示范畴 | 单词数 | 含义数 |
名词 动词 形容词 副词 | 94 474 10 319 20 170 4546 | 116 317 22 066 29 881 5677 |
由于存在多义关系,词网中的94 474个名词可以表示116 317个含义(词汇化的概念)。
词网中的基本语义关系是同义关系。如果词网中的两个条目在某些上下文环境能够成功地进行替换,则认为它们是同义词。同义词的集合构成了同义词集,叫作SYNSET。
下面是SYNSET的一个例子:
{chump,fish,fool,gull,mark,patsy,fall guy,sucker,schlemiel,shlemiel,soft touch,mug}
这个SYNSET的定义是“a person who is gullible and easy to take advantage of(易受骗和易被利用的人)”。因此,在这个SYNSET中的每个词条都可以在一些场景下表达这个概念。实际上,词网中许多条目的含义都是由这类SYNSET组成的。SYNSET及其定义和例句,构成了SYNSET中所列条目的含义。
从一个更理论化的观点看,每个SYNSET都可以表示语言中已经词汇化的一个概念。但是,词网不是用逻辑项来表示概念,而是通过把可用于表达概念的词典条目组成列表来表示概念。这种观点引出一个事实:正是SYNSET,而不是词典条目或单个的含义,参与了词网的名词中的大部分语义关系。词网中的各种语义关系,实际上都是SYNSET之间的关系。为了表达上的方便,一般只用SYNSET中的有代表性单词来表示SYNSET。
词网的名词中有3种语义关系:上下位关系、整体-部分关系、反义关系。
在词网数据库中,每一个单词都可以代表一个同义词集,用SYNSET来表示,每个SYNSET通过上位关系和下位关系与紧靠的更普遍化或更具体化的SYNSET相关联。为了找到一系列更普遍化或更具体化的SYNSET,可以简单地跟随一个上位和下位关系的传递链往上查询或者往下查询。
应该注意的是,词网中的上下位关系表示的是单词所代表的某个特定的含义之间的关系,它并不表示具体的单词形式(word form)之间的关系。
例如,当说“tree”(树)是一种“plant”(植物)的时候,指的是含义为“树”的tree和含义为“植物”的plant之间的关系,并不是指“tree”的其他含义和“plant”的其他含义之间的关系,比如“树形图”(tree graph)和“工厂”(manufacturing plants)之间的关系。
因此,上下位关系是单词的特定含义之间的关系,它代表的是词汇化的概念之间的关系。在词网中,上下位关系用指针“@->”把相应SYNSET联系起来表示。例如,有:
{robin,redbreast}@->{bird}@->{animal,animate_being}@->organism,life_form,living_thing}
({知更鸟,胸部红色}@->{鸟类}@->{动物,动物_生物}@->生命体,生命_形式,活着的_事物})
从数学上说,@是传递的,非对称的。它表示的语义关系可以读为“IS-A”或“IS-A-KIND-OF”。“->”读为“指向”(to point upward)。
当由概括性较弱的含义指向概括性较强的含义时,叫作普遍化,即从特殊(specific)指向一般(generic),用“@->”表示,写为:Ss @->Sg。当由概括性较强的含义指向概括性较弱的含义时,叫作具体化(specification),即从一般(generic)指向特殊,用“
->”表示,写为:Sg
-> Ss。
在上下位关系中,因为概念的特性可以继承,所以可以利用上下位关系进行推理。例如,如果Rex是一只“collie”(牧羊犬),那么,Rex就是一只“dog”(狗);如果Rex是一只“dog”,那么;Rex就是一只“animal”(动物);如果Rex是一只动物,那么,Rex就能够主动地运动(capable of voluntary movement)。这样,上下位关系可以形成传递链,一步一步地把概念普遍化。当到达最普遍的概念的时候,这样的概念就是语义的基元,在词网中叫作初始概念。
词网的名词数据库中使用了25个初始概念。它们是:
{act, activity}(活动)
{animal, fauna}(动物,动物群)
{artifact}(人工物)
{attribute}(属性)
{body}(躯体)
{cognition, knowledge}(认知,知识)
{communication}(交际)
{event, happening}(事件)
{feeling, emotion}(感觉,情感)
{food}(食物)
{group, grouping}(集体)
{location}(位置)
{motivation, motive}(动机)
{natural object}(自然物)
{natural phenomenon}(自然现象)
{person, human being}(人,人类)
{plant flora}(植物,植物群)
{possession}(所属)
{process}(过程)
{quantity, amount}(数量)
{relation}(关系)
{shape}(外形)
{substance}(实体)
{time}(时间)
后来,词网又对这25个初始概念进行归纳和整理,形成了如下的11个初始概念:
图1 11个初始概念
经过整理之后的 11个初始概念是:“entity”(实体)、“abstraction”(抽象)、“psychological feature”(心理特征)、“natural phenomenon”(自然现象)、“activity”(活动)、“event”(事件)、“group”(集体)、“location”(位置)、“possession”(所属)、“shape”(外形)、“state”(状态)。
可以把单词不同的含义组织到这样的初始概念中。
例如,“bass”这个单词在词网中有很多不同的含义,其中的含义3和含义7是两个不同含义。以下展示了单词“bass”的这两个含义上下位关系的传递链。这两个传递链是完全分别开来的,但是它们在初始概念“实体”(entity)处汇集在一起了。
含义3
bass, basso
(an adult male singer with the lowest voice)(成年的男低音歌唱家)
=> singer, vocalist(歌唱家)
=> musician, instrumentalist, player(音乐家,演奏家)
=> performer, performing artist(表演艺术家)
=> entertainer(演艺人员)
=> person, individual, someone ….(人)
=> life form, organism, being ….(生物体)
=> entity, something(实体)
=> causal agent, cause, causal agency(作为导因的人或事物)
=> entity, something(实体)
含义7
bass –
(the number with the lowest range of a family of musical instruments)(低音乐器)
=> musical instrument(乐器)
=> instrument(工具)
=> device(设备)
=> instrumentality, instrumentation(设施)
=> artifact, artefact(人工物)
=> object, physical object(物理客体)
=> entity, something(实体)
在含义3的传递链中,链的开始是“男低音歌唱家”,它的上位词是“歌唱家”这个更为一般的概念,再上位的概念顺次是“音乐家”“表演艺术家”“演艺人员”“人”“生物体”。“实体”。含义7的传递链从“低音乐器”开始,顺着完全不同的链,顺次经过“乐器”“工具”“设备”“设施”“人工物”“物理客体”等概念,最后也到达初始概念“实体”。这两个传递链顺着不同的路径殊途同归。在概念的层级系统中,“实体”处于最顶端的位置,它是词网的11个初始概念之一。
在词网中,用Wm和Wh分别表示部分词和整体词,用“is a part of”(“是一部分”)和“has a”(“有…作为一部分”)来描述部分—整体关系的语义。如果“Wmis a part of Wh”(如果Wm是Wh的一部分)是可接受的,那么就说“Wm is a meronym of Wh”(Wm是Wh的部分词);如果“Whhas a Wm(as a part)”(Wh有Wm作为一部分)是可接受的,那么就说“Whis a holonym of Wm”(Wh是Wm的整体词)。
部分-整体关系与上下位关系的数学特性很相似,它们都是可传递的、非对称的。例如,“finger”(指头)是“hand”(手)的一部分,“hand”(手)是 “arm”(胳臂)的一部分,“arm”(胳臂)是 “body”(躯体)的一部分。
根据M.E.温斯顿(Morton E. Winston,美国)和R.切芬(Roger Chaffin,美国)在1987年的研究,部分—整体关系可以分为6种类型:①组成成分—客体,例如,“branch”(树枝)- “tree”(树)。②成员—集体,例如,“tree”(树)- “forest”(森林)。③局部—物质,例如,“slice”(一片蛋糕)- “cake”(蛋糕)。④材料—客体,例如,“aluminum”(铝)- “airplane”(飞机)。⑤特征—活动,例如,“paying”(支付)- “shopping”(购物)。⑥地点—地域,例如,“Princeton”(普林斯顿)- “New Jersey”(新泽西州)
在词网中,仅仅使用了3种关系:组成成分—客体关系、成员—集体关系、材料—客体关系,分别用#p->, #m->, #s->来表示。具体地说, “Wm#p-> Wh” 表示 “Wm是Wh的组成成分”;“Wm#m-> Wh” 表示 “Wm是Wh的成员”;“Wm#s-> Wh” 表示 “Wm是制造Wh的材料”。
相反或对立的单词之间的关系,叫作反义关系。反义关系用“!->”表示。例如,[{man()}!->{woman}]表示“man”(男人)是“woman”(女人)的反义词;[{woman}!->{man}]表示“woman”是“man”的反义词。
具有反义关系的名词的上位词往往是相同的,它们通常具有一个直接上位词。例如,“man”和“woman”的直接上位词是“human”(人)。反义关系并不是名词之间的一种基本的意义组织方式。词网的反义关系主要存在于形容词和副词中。
词网将20 170个形容词组织到29 881个含义(词汇化的概念)中。
在词网中凡是修饰名词的词都看成形容词。因此,除了通常的形容词之外,名词、现在分词、过去分词、介词短语、小句(clause)都算形容词。例如,句子 “alargechair, acomfortablechair”(一把大椅子,一把舒适的椅子)中的“large”和“comfortable”是形容词,在词网中,也算形容词。但是,在下面句子中的用斜体字标出的词、短语或小句,在词网中也都算为形容词。
kitchenchair(厨房的椅子),barberchair(理发店的椅子) (原来是名词)
Thecreakingchair(嘎吱作响的椅子) (原来是现在分词)
Theoverstuffedchair(装填过多的椅子) (原来是过去分词)
Chairby the window(窗边的椅子) (原来是介词短语)
The chairthat you bought at the auction(拍卖会上你购入的椅子) (原来是小句)
词网的16428个形容词SYNSET中包含了很多的形容词、分词和介词短语。
形容词可以分为描写形容词和关系形容词两种。描写形容词可以给被它修饰的名词赋上一个属性值。“X is Adj”意味着,存在着一个属性A使得 A(X) = Adj。例如,“the package is heavy”(包裹很沉)意味着,存在着一个属性WEIGHT(重量)使得WEIGHT (package) = heavy。“heavy”或“light”是属性WEIGHT的值。词网中使用一个指针把描写形容词与它所修饰的名词联系起来。关系形容词是由名词派生而来的,因此,关系形容词和派生它的名词之间是有联系的。例如,关系形容词“electrical”(电的)与名词“electricity”(电)有联系。
描写形容词之间的基本语义关系是反义关系。例如,“good”(好)—“bad”(坏)。描写形容词有两个显著的特征:一是属性的两极性,一是属性的分级性。
关系形容词在语义上或形态上与名词有联系,尽管关系形容词与名词形态上的联系还不是很直接的。例如,“musical”(音乐的)与名词“music”(音乐)有关;“dental”(牙科的)与名词“tooth”有关。 因此,名词常常可以用关系形容词或者该关系形容词所由派生的名词来修饰。
关系形容词与描写形容词的区别:关系形容词不涉及它们所修饰的名词的性质,因此与属性无关;关系形容词不能分级,不能说“*the very atomic bomb”(*非常原子的炸弹);大多数关系形容词没有直接反义词。因此,关系形容词不能包括到聚类中,它们也没有两极性。
在词网中,关系形容词的文档包含2823个SYNSET。每一个关系形容词有一个指针指向相应的名词。
词网中有4546个副词形式,它们被组织为5677个含义(词汇化的概念)。
大多数副词是从形容词通过加后缀“-ly”的方法派生而成的。例如,“beautifully”(美丽地)、“oddly”(古怪地)、“quickly”(快速地)、“interestingly”(有趣地)、“hurriedly”(匆忙地)等副词分别来自形容词“beautiful”(美丽的)、“odd”(古怪的)、“quick”(快速的)、“interesting”(有趣的)、“hurried”(匆忙的)。其他的副词是通过加后缀“-ward”“-wise”“-ways”的方法派生而成的,例如,“northward”(朝北方)、“crosswise”(贯穿地)、“sideways”(往一边倾斜地)。在词网中,派生出来的副词都通过一个意思为“DERIVED-FROM”的指针与相应的形容词联系起来。
词网中的10 319个动词被组织到22 066个含义(词汇化的概念)中。
词网的动词数据库中的语义领域有14个:“motion”(运动)、“perception”(感知)、“contact”(接触)、“communication”(交际)、“competition”(竞争)、“change”(变化)、“cognition”(认知)、“consumption”(消耗)、“creation”(创造)、“emotion”(情绪)、“possession”(占有)、“body care and function”(身体保健和功能)、“social behavior”(社会行为)、“interaction”(交互)。
S.普尔曼(Stephen Pulman,英国)建议使用“be”(是)和“do”(做)作为概念系统中一切动词的根结点,用动词“be”表示静态动词,用“do”表示行为动词。但是,这两个动词都是多义的,如果用来作为一切动词的根结点,实际上很不方便,因此,词网没有采用普尔曼的这个建议。
词网中的“be” 和“do”各有12个含义,例如,在“to be or not be, that is the question”(存在还是毁灭,这是一个问题)和“Let him be, I tell you”(别管他,我来告诉你)中的“be”,含义各不相同,在“do my hair”(为我理发),和“do my room in blue”(把我的房间刷成蓝色)中的“do”,含义也各不相同。显然不能选用be 和do作为一切动词的根结点。
词网1.5版中,共有11 500个动词的SYNSET。
在一个单独的语义领域内,很难把所有的动词归属到一个单独的初始概念之下。有些语义领域需要使用若干个独立的树形结构来表示。
例如,表示“motion”(运动)的动词要分为move1和move2。move1表示有位移的运动,move2表示没有位移的运动。
表示“possession”(所属)的动词向上归属时,要归属到3个不同的概念,用3个不同的SYNSET分别表示为{give(给予), transfer(转移)}, {take(拿来), receive(收到)}, {have(拥有), hold(持有)}。
表示“communication”(交际)的动词要分为“verbal communication”(口头交际)和“nonverbal communication”(非口头交际,如使用手势进行交际)。
在词网中动词含义的分布情况可以用坐标来表示。在一个直角坐标系中,如果用y轴表示词位的含义数,用x轴表示多义词的数目,那么,动词含义的分布情况如图2所示:
图2 动词含义分布图
从图2中可以看出,在词网中,多义程度很高的动词的数量相对较少,大多数动词只有一个含义。
词网实际上是一个语言知识本体,它提供了极为丰富的词汇语义信息。这些信息对于自然语言处理中的语义分析是大有用处的。