汉语构词的研究 ,作为现代汉语的重要内容 ,一直为词汇和语法学界所重视 ,并取得了丰硕的成果 ,而信息网络时代的到来则对汉语的研究提出了更高要求。 70年代就有人预言语言学是一门领先的科学 ,其重要表现就是语言与计算机的结合。计算机由单纯数据计算到信息处理 ,是从处理语言文字信息开始的。随着计算机科学的发展和信息时代的到来 ,汉语构词研究也不再仅仅局限于加深对词语结构的认识、正确理解词义并使用语言 ,它还应对计算机自动分词、词性标注以及词义理解等方面提供语言学帮助。从构词的角度来看 ,词是由词素构成的 ,然而这些词素的性质地位并不一样。对汉语词素我们可从语音形式、语言功能、意义性质等各方面进行分类。从信息处理的角度看 ,这些分类对汉语分词都具有一定的作用。单纯从语音分类来看 ,汉语双音节词素的存在有助于计算机自动分词。我们知道 ,双音节词素不外构成连绵词、叠音词以及音译外来词的成词词素 ,这些词素尤其是连绵词、叠音词构成词素所用的文字符号大部分是专职的 ,即只能构成这个词而不能构成其他的词。比如连绵词葡萄、蟋蟀、蜘蛛、蟑螂、鸳鸯、忸怩、徘徊、踯躅、蹉跎、哆嗦、尴尬、窈窕 ,叠音词猩猩、姥姥、潺潺、皑皑、瑟瑟 ,其文字符号蕴涵了相当多的信息量 ,用字与字序的专一性使计算机也很容易识别。从功能方面来看 ,词素可分为可成词词素和非词词素<1> 。可成词词素既可单独成词 ,又可和其他词素共同构成一个词 ,这一点显然无助于计算机自动分词。非词词素不能单独成词 ,它也就只能提示计算机断定它本身不是词 ,而必须和其他词素共同构词 ,所以对计算机自动分词的作用也并不太大 ,要使语言研究与计算机工程结合起来 ,还应对词素做进一步的分析。卞成林根据计算机自动分词的需要 ,将工程词素分为造词、成词和非词三大类词素。<2 > 他研究发现《现代汉语词典》共 972 5个词素 ,其中有173 8个词素是造词词素 ,它们只能单独构词 ,不能充当构词成分 ,计算机分词系统很容易将这些词预先提取出来。成词词素和非词词素都可以充当构词成分 ,不同的是 ,成词词素还可单独构词 ,非词词素却不能。这两类词素中 ,不少词素在构词时位置是固定的 ,这就可以成为计算机自动分词的一个明显标记。卞成林经过分析得出结论 :这些词素中不定位词素 3 64 6个 ,定位词素 2 62 5个。<2 > 由于定位词素只分前置和后置定位词素 ,这种位置特征对于自动分词显然有重要的作用。当然 ,定位词素如果是还能够单独成词的自由词素 ,肯定会对据此进行分词的结果产生一定的干扰作用。再加上定位词素既可构成双音节词 ,还可能构成多音节词 ,这也给计算机自动分词增加了难度。这就要求我们进一步深入研究定位词素以及其他构词词素的语法性质、词汇意义等属性 ,以增强分词的抗干扰能力 ,提高自动分词的正确率。把词素分为词根和词缀是从词素意义方面的分类 ,当然它们在形式上也有比较明显的标志 ,这是构词研究中很重要的一种分类方法。因为词缀是定位词素 ,即使数目很少 ,但由于使用频率高 ,所以对自动分词也具有一定意义。然而需要注意的是 ,大部分词缀并不是专职的 ,它们还可以以别的意义出现在其他词中 ,且位置并不固定。比如最常用的词缀“子” ,它除了能做后缀构成一大批附加式合成词外 ,还可以做词根构成许多复合词 ,如“子弹”“子弟”“子女”“子夜”“莲子”“孢子”等 ,对分词有干扰作用的当然是做前一个词素的“子” ,尽管在这个位置上它构成的常用词并不多 ,但肯定也会影响分词的效率。这些情况都要求我们仔细分析词根、词缀的意义、属性以及组合等情况 ,找出规律 ,以更好地为信息处理服务。词根与词缀的分类对语音识别的作用也很明显。词缀都是虚词素 ,其分布位置固定 ,占词缀中大部分的后缀多读轻声 ,如刀子、瓶子、胖子、瘦子、石头、木头、苦头、甜头 ,此外 ,柔性、弹性的“性” ,绿化、美化的“化”等 ,读音也较轻。有人研究了汉语词的轻读规律 ,指出 7种成分普通话中通常读轻声。<3 > 除后缀以外 ,叠音词的后字 ,表示方位以及趋向的构词成分 ,如这边、那边、前面、后面、出来、进来、上去、下去中的“边”“面”“来”“去” ,都是这种情况。相对于构词法来说 ,词素义的研究一直是一个薄弱的环节 ,随着计算机处理中文信息的需要 ,这方面的工作需要大大加强。从词的结构进一步分析词义对于汉语真实文本自动语义标注具有不可忽视的作用。符淮青较早地分析了词义和构成词的词素义的关系 ,他通过研究发现 ,词义和词素义的联系是多种多样的 ,但其中也存在某种规律性 ,因此分析词素义对确定词义也有相当的作用。<4> 苏宝荣更进一步认为 ,汉语词素义与复合词词义的关系 ,既与词素义自身有关 ,也与复合词的语法结构有关。<5> 他们的研究成果如能应用于中文信息处理 ,将会发挥更大的作用。计算机专家黄昌宁等人的研究 ,实际上已将词素义与词义的关系结合起来 ,<6> 他们发现 ,复合词词义与其字义(词素义 )联系有 5种类型 ,其中的绝大多数复合词 ,其字义和词义联系密切 ,词义几乎等于字义相加。清华大学的汉语真实文本自动语义标注系统就是根据这一规律进行工作的。苑春法、黄昌宁 (1998)还根据汉语中二字复合词的结构 ,即构词方式、构词类序以及名词、动词、形容词 3大类实词的构词规律与意义的关系 ,进一步证明汉语词素义与词义关系明显。<7> 这一结论完全根据统计得出 ,是在词素数据库基础上的分析研究 ,所以就更具说服力。这个规律可以使词素在未登录词处理的研究方面起很大的作用。汉语词素数据库的建立 ,对词的切分、语义描写等各方面都有重要意义。词义问题是很复杂的 ,不过其中也蕴涵着一定的规律 ,并能为计算机理解自然语言所利用。符淮青、苏宝荣、苑春法、黄昌宁已经研究发现合成词词义的一些值得注意的现象 ,但有些问题还应该深入挖掘。卞成林统计发现 ,汉语的单义词素共 44 2 5个 ,占全部词素的 45 .5 0 %。在研究它们与所构词的意义关系时 ,其合成词的意义还便于计算。然而 ,“一个重要的事实是 :这一类词素的构词能力很弱 ,由它们所造的词在现代汉语词典中所占的份额与词素的数量不成比例”。<2 > 而只占全部词素 40 .3 5 %的多义词素在构成合成词时 ,计算机如何进行义项选择呢 ?据卞成林研究 ,现代汉语中构词能力最强的 189个词素 (构词数都在 10 0以上 ) ,全部都是多义词素 ,而且 87%以上含有 4个以上的义素。这种现象倒也容易解释 ,因为汉语的历史很长 ,而存在时间越长的词或词素 ,义项就会越多 ,构词能力也就越强。但这却给计算机分析文本增加了难度 ,毕竟计算机达不到人的智能水平 ,它不会选择词素的合适义项来标注词义。当然 ,一个词素的义项之间意义是有联系的 ,人可以根据词素的本义通过引申、比喻等方法推知其转义 ,但计算机却没有这种能力。然而 ,研究者如能教会计算机选择义项 ,也就是说 ,研究人员如能进一步解释词素间意义组合的情况 ,找出义位间的最优组合规律 ,总结并细化词素间的语义关系 ,将会更利于计算分析。苑春法、黄昌宁的统计研究主要是为了说明词义与词素义的密切关系 ,并使之为语义理解服务。实际上 ,通过他们的研究过程和统计资料 ,我们同样可以发现合成词词性与构成它的词素语法性质的关系。尹斌庸认为 ,<8> 词素不是词 ,但明显地具备词性。因为一部分词素能单独构词 ,这时它是有词性的 ,而不能独立运用的词素在古汉语中又是自由的 ,当然它在古汉语中有词性 ,在加上汉语的构词方式与造句方式又基本一致 ,这些都易于判断词素的语法性质。许多人即使回避了词素具有语法性质的说法 ,但汉语中有主谓、动宾、补充等构词方式却又是他们不得不承认的事实 ,这实际上就是认为词素是有语法性质的 ,即对词素的分析可以套用词类的术语。如可以称名词性词素、动词性词素、形容词性词素等。苑春法、黄昌宁分析了词素的语法性质 ,着重研究了复合二字词 ,主要是名、动、形 3大类实词的构词方式和规律 ,从构词情况进一步分析了词和词素间意义的联系。如果继续研究下去我们还可以发现 ,词素语法类别、排列次序与合成词的词性有着密切的关系。比如“名 +名”“动 +动”“形 +形”所构成的复合词 ,名词、动词、形容词都分别占了绝大多数。再如“形 +名” ,因符合偏正式合成词构词类序 ,所以容易分析为名词。具有名词、动词、形容词性质的 3大类词素 ,排列组合不外 9种类型 ,每一种类型所构成的合成词 ,都有一类词占绝对优势。如果我们再深入研究 ,分析并归纳各种类序所构成合成词的语法类别 ,尤其是找出它们所构成的劣势词的出现条件 ,主要是它们的语法语义情况并进行形式分析 ,这对大规模真实文本尤其是未登录词的词性分析也会大有裨益。俞士汶指出 ,要解决好计算机系统内未定义词处理的问题 ,重要的途径就是注意对合成词构词规律和词间关系的研究。<9>汉语新词的研究工作目前也很受重视 ,许多研究者探索了新词的结构规律 ,发现了新词在构词上的一些新特点 ,这些特点对于汉语信息处理也具有很重要的意义。比如有人发现汉语新词词缀化倾向增强 ,同时产生了一些新的词缀或类词缀 ,如果仔细分析这种现象 ,显然有助于自动分词。因为词缀或类词缀不论其意义的虚化程度如何 ,其位置总是固定的 ,而这正是计算机自动分词的一个重要标志。另外 ,研究人员还发现 ,新词中多音节词有不断增加的趋势 ,尤其是三音节词显著增加 ,它们的构词方式也以偏正式为主 ,这个规律有助于对未定义词进行词性、词义标注。汉语构词研究虽然取得了一些成果 ,但从信息处理的需要来看
More summaries about the 汉语构词研究与语言信息处理