基于语素数据库的汉语语素及构词研究清华大学苑春法黄昌宁AbstractMorpheme isthesmalestphonological-semanticunitinalan guage.SinceChinesedifersinseveralrespectsfr omtheIndo-Europeanlanguages,Chinesemorpheme sdeservespecialatentioninthestudyofthelangu ageandintheChinesein-formationprocessingsys tems.ThispaperintroducestheChinesemorphemed atabankfoundedatTsinghuawiththesupportofthe NaturalScienceFundandthefundamentalstudieso fChinesemorphemesandwordformationbasedonthi sdatabank.一汉语语素数据库汉语语素数据库是清华大学在自然科学基金支持下建立的 一个大规模数据库(参考文献1)。它对覆盖6763个汉字的汉语语素及其所构二字词、三字词 及四字词(参考文献4)进行了穷举描述。在汉语语素数据库中共有汉语语素项17470个,语 素10442个,二字词78230个,三字词6700个,四字词14200个。整个数据库共 有116600条记录。二字词一般有两个语素构成,所以二字词数据库中存在着一些冗余信息。 例如“定”这个语素项可以组词为“定单”,而“单”这个语素项也可以组词为“定单”,二者分 别形成2条记录。为了研究方便,我们可以把两条记录合并为一,三字词及四字词也有类似的情况 。经过合并处理之后,二字词有45960条记录,三字词有3930条记录,四字词有4820 条记录。在汉语语素数据库中,一个语素的一个义项(即语素项)构成一个独立的记录。定义1: 语素是音义结合的最小语言单位。凡读音和意义完全相同而字形不同的,原则上作为一个语素。读 音和意义中有一个不相同的,原则上作为两个语素。定义2:语素项是指一个语素的一个义项(本 义、引申义或比喻义)(参考文献1)。在汉语语素数据库中对汉语语素的特性主要进行了如下描 写:释义:是指该语素在该义项下(语素项)的意义(参考文献4)。类别:是指语素的类别(素 类),主要参照意义对汉语语素进行的分类。成词:是指该语素项在短语或句子中能独立成词。不 成词:是指该语素项在短语或句子中不能独立成词,而只能作为构词成分。半成词:是指该语素项 有时在短语或句子中能独立成词,有时则不能。即一般该语素项不能独立成词,但在这样或那样的 条件下可以独立成词不定位:是指该语素项在其所构词中的位置不固定,可前、可后、可中。前位 (后位或中位),是指该语素项在其所构词中的位置是前位(后位或中位)。语素所构词的描述, 主要有词形、读音、词类、
构词方式、类序、多义及字义组合等。构词方式:是指语素以主谓、偏 正、联合、述宾,述补等结构形式组成为词。类序:是指由语素项所构词中各语素项素类的序列。 如“打球”,其类序为vn。多义:是指某词是否有多义。这里的多义是指词形、词类、构词方式 和字义组合均相同的情况下仍存在一个以上的义项。字义组合:用来描写词义与组词各语素项意义 间的关系。如果词义是由组词各语素项意义组合而成的(如“恳求”),则此栏填“2”;如果不 是(如“买东西”的“东西”),则填“0”;如果介乎二者之间(如“火腿”、“大学”),则 填“1”。二汉语语素的分布经初步统计,覆盖6763个常用汉字的语素项共有17470个。 语素项归并为语素有10442个。其中单字语素有9712个,占总数的93.0%;二字及二 字以上的语素为730个,占总数的7.0%。由此可见单字语素占汉语语素的绝大多数。这部分 语素是汉语构词中的活跃因素,二字及二字以上语素一般很少再组新词。在单字语素中还有195 9个0义项语素,这些0义项语素一般和其它语素构成的词是属于固定用法或典故,即不归入任何 一个义项而单独列出的词(参考文献4)。难以确定这些语素在组词中的作用,难以断定它的构词 方式。这类0义项语素组成的词是汉语文化的历史产物。例如:0义项语素“瓦0”构词为“瓦全 ”、“弄瓦”等;0义项语素“外0”构词为“员外”等。这些0义项语素对于我们研究汉语的构 词规律,难以起到什么作用。去掉这些语素后汉语的单字语素还有7753个。我们认为,研究这 7753个语素对于揭示汉语的构词规律有直接的意义,因而我们称这些语素为基本语素。基本语 素的素类分布如下表所示:素项名词性动词性形容词性副词性介词性代词性连词性叹词性助词性象 声词性数词性量词性其它共计数量3612243398215226612738286745 1571257753百分比46.731.412.72.0.3.8.3.5.4.9.62 .01.6100.由以上可见,名词性语素最多,占46.7%,其次是动词性语素,占31. 4%,形容词语素占12.7%,三类合计占总数的89.8%。在复合二字词中名词最多,占5 1%,其次是动词,占36.4%,形容词占7.6%,三类合计占95%(参考文献3)。基本 语素的素类分布和复合二字词词类的分布大致相似,其原因留待下文来解释。对7753个语素是 否可以单独成词情况及成词时的位置情况统计如下:位置任意前位后位待界定总计成词2407( 31.1)150(1.9)67(0.9)254(3.3)2878(37.1)不成词17 35(22.4)841(10.8)582(7.5)137(1.8)3295(42.5半 成词203(2.6)171(2.2)37(0.5)21(0.3)432(5.6)待界定 14(0.2)4(*)3(*)1127(14.5)1148(14.8)总计4359(5 6.2)1166(15.0)689(8.9)1539(19.9)(注:“待界定”是指工 作人员在填写和校对工作单时对语素的某一特性难以确认,留待讨论决定。目前该项暂空缺;在括 号内的数字表示百分比,如(31.0)表示(31.0%);(*)表示小于百分之零点一。) 从上表可看出,在汉语中能单独成词且在成词时位置任意的占大多数,共2407个,占总数的3 1.0%,其次是不能单独成词且在成词时位置任意的共1735个,占总数的22.4%。总之 ,汉语语素在成词时位置任意的占大多数。如前所述,语素在成词时位置大多数是任意的。但仍有 1166个语素在成词时处于前位,占总数的15.0%,有689个语素在成词时处于后位,占 总数的8.9%。这些语素分布如下:名词性动词性形容词性介词性其它处于前位384(5.0 )452(5.5)229(2.3)13(0.2)115(1.5)处于后位442(5.7 )129(1.7)62(0.8)1(*)55(0.7)通过对语素的上述统计分析,我们可 以初步得到这样的结论,汉语语素素类的分布和汉语二字词词类的分布基本类似。
名词性语素、动 词性语素、形容词性语素占绝大多数。大多数汉语语素在成词时位置是任意的。表一构词方式名词 动词形容词体素联合2058510谓素联合29942522046定中偏正17752016 4状中偏正2423647460述补1192725量补3400述宾2907134165主 谓7424393述介0234前缀3850后缀776115126重叠5413126简称2 9130数词缩语800固定词组2303841未注标记12117216合计2201615 6663276三汉语中二字复合词的结构在汉语语素数据库中,由语素构成的二字词共计有43 097个,其中名词有22016个,占51.1%,动词有15666个,占36.4%;形容 词有3276个,占7.6%;三类词合起来占总二字词的95%,也就是说占了绝大部分。研究 这三类词的构词规律有着决定性的意义。3.1复合词的构词方式统计复合词的结构基本上和词组 、短语、句子的结构一样,也存在着主谓、偏正、联合、述宾,述补等结构。对名词,动词,形容 词构词方式的统计结果如表一所示,从中可以看出以三个明显特征:(1)名词的构词方式以体素 联合和定中偏正为主,其中定中偏正占80.6%,体素联合占9.3%。二者共约占名词二字词 总量的90%。(2)动词以述宾、谓素联合和状中偏正三种构词方式为主,它们各占39.7% 、27.0%、23.3%。共占动词二字词总量的90%。(3)形容词以谓素联合为主,占形 容词二字词总量的62.5%。3.2复合词的构词类序统计在现代汉语中,“词根+词根”的复 合式合成词在整个词汇系统中占有很大的比重。汉语没有形态变化,名、动、形容词性语素交错排 列,组成各种类型。可以构成“名+动”,“动+名”,“名+形”,“形+名”,“动+形”, “形+动”,“名+名”,“动+动”,“形+形”共9种素性排列类型。表二给出了二字词的构 词类序统计。从表二可以看出:表二类序名词动词形容词名+动25563120名+形9020 160名+名12583832动+名25595338112动+形2358470动+动21 8701060形+名463043129形+动931127127形+形151342205 其它类序总合1414871361总计22016156663276(1)名词中绝大多数都 是由名词性的语素参与构成,而且这些名词性的语素多数位于后面。例如“名+名”占57.2%,“形+名”占21%和“动+名”占11.6%。(2)复合动词绝大多数都是由表示动作行为的动词性语素参与构成的,而且多数动词都是由动词性语素按“动+动”(占44.7%),“动+名”(占34.1%)和“形+动”(占7.2%)构成。词中的第一个语素是动词性的占多数
More summaries about the 基于语素数据库的汉语语素及构词研究