1.引言语料库在词典编纂中的作用已经受到广大学者和词典编纂家的一致肯定,语料库语言学领域的著名学者Wolfgang Teubert(2002:211)明确地说:借助双语库可以提高双语词典的质量。实践证明语 料库在例证的选择、搭配词的寻找、对等词的确定等词典编纂的诸多方面都能发挥重要作用。南京 大学外国语学院双语词典中心是国内在词典编纂领域首先使用语料库的科研机构之一,下面介绍由 笔者开发的基于双语库的双语词典编纂系统(以下简称CpsDict),同时用实例说明该系统 在词典具体编写过程中的应用。2.系统组成2.1双语库该系统内置了一个英汉双语平行语料库 ,语料由新闻报道类、新闻评论类、散文类、小说类、文艺类和一般科技类等组成,各子语料库在 总库中的比例分配参照了Brown语料库、LLELC语料库和现代汉语语料库,具体情况见L i(2003:61)及刘连元(1997)。平行语料库除了英汉语对等译文字段之外,还包含 了原文出版时间、出版社、语体、译者等相关信息。这些超文本信息在词典编纂中,特别是在对例 证的选择上常常具有重要意义。该系统的平行语料库目前规模已达100万字次,英汉双语句对齐 语料1万多对,段落对齐语料5000对左右。由于系统语料库是开放式的,便于添加新的语料, 所以规模会随需要进一步扩大。2.2英汉平行语料自动切分模块目前,国内外双语库(如GEP COLT)在建设过程中,双语语料在入库前的切分和对齐(alignment)基本上都是以 句子为单位。CpsDict系统的自动切分模块分为两类:以句子为单位的自动切分和以段落为 单位的自动切分。以句子为单位自动切分的准确度同译文与原文的单句对应度直接相关,尚有许多 技术问题需要解决。以段落为单位的自动切分准确度较高,按照系统要求生成的“半加工文本”的对齐率可达90%以上。本模块将自动对齐的语料以Access数据库格式存储,用户可以用MicrosoftOffice自带的数据库应用程序进行后续编辑和处理。2.3用户自建语料配例自动提取模块除 了内置的双语库之外,本系统还支持从纯英文、汉文及英汉语混排的文本中提取例句,并允许用户 对查询结果逐条、部分或全部进行保存。对于汉语或英文的单语语料来说,只要将语料素材以RichText Format(RTF)格式或者纯文本的格式编辑保存,系统就可以自动提取需要的例证来作为词 典的配例。单语素材编辑简单,灵活自如,必要时可当作内置双语库的补充。下面是以“culture”为关键词从自建单语库中提取到的例证:a.Chineseculture is rich and profound.b.Another area of the profundity of Chineseculture is her pre-industrial revolution science andtechnology.c.The richness of Chinese culture also findsexpression in its diversity and pluralism.d.The diversity and pluralism of Chineseculture is a tremendous asset.e.Chinese culture is a complete system,including its own philosophy,literature and arts,medicine,technology and science as well aslanguage and festivals.如果要想得到英汉双语的对等语料配例,在自建双语素材库的过程中,需要进 行一定的加工。以下是以“小康”为关键词从自建双语库中提取的部分例证:a.大会的主题是:……全面建设小康社会···Thetheme of the congress is to···build a well-off society in an all-round way···b.人民生活总体上达到小康水平。On thewhole,the people have reached a well-off standard ofliving.c.当人类社会跨入二十一世纪的时候,我国进入全面建设小康社会、加快推进社会主义现代化的新的发展阶段。As human society entered the 21stcentury,we started a new phase of development forbuilding a well-off society in an all-round way andspeeding up socialist modernization.2.4输出系统该系统不仅支持汉英双语词典的编纂,也支持英汉双 语词典的编写。在“输入词语”部分输入汉语或者英语关键词(可视为双语词典中的词目),点击 相应的命令按钮“汉英”或“英汉”就可以打开双语平行语料库中的记录。系统默认情况下显示第 一条记录,如果此条记录的内容不合适,可以继续打开“下一记录”。除了逐句显示之外,系统还 能一次显示所有包含关键词的汉英对等语句(在语料库中为一条记录)。当找到合适的对等语句后 ,可以通过“导出本句”命令将该记录复制到“待输出的内容”。当“待输出的内容”告一段落时 ,“保存结果”命令会以rtf格式的文本将结果保存到用户指定的文件夹。“导出本句的详细信 息”不仅能导出汉英对等语句,而且还能导出材料来源、出版社和译者等其他相关信息。例如用“旺季”为关键词可以得到以下详细内容:旺季theheight of the season:现在本应是巴厘岛最繁忙的旅游旺季。It should be the height ofthe season in Bali.(标题:It s Bali,It s Christmas,but Beaches Deserted①又是一年圣诞至巴厘岛爆炸过后无人烟作者:不详;译者:中国日报网站;出版 社:中国日报网站;出版时间:2002/12/27;材料来源:报刊。)基于大型语料库选择 例证往往会出现一句多选的问题,特别是在多人共用同一个语料库的情况下。为了解决这个问题, 系统通过“已选确定”命令给已经被选用的记录打上标志,此举能有效避免同一记录被第二次提取 。在“其他信息”部分,词典编撰者可以输入与词目相关的语法和语用补充信息,如“常用被动语 态”、“反语”、“口语”等。例如语用信息“美语口语”对于“maven”这个词目来说是非 常重要的,通过在“其他信息”栏内输入“美语口语”可以得到以下输出结果:maven<美语口语>专家:Whilepreviousyears have celebrated such phrases as“millenniumbug,”“Y2K,”“e-commerce”and“chads”,thelanguage mavens studying 2001 are as consumedwith the September 11 attacks on the World TradeCentre and the Pentagon.2000年的流行词语包括“millennium bug(电脑千年虫病毒)”,“Y2K(公元2000年,千年虫)”,“e-commerce (电子商务)”和“chads(孔屑,指2000年美国总统大选计票混乱,选票上的孔没打好 )”,但据语言专家研究,2001年的流行词汇大多源于9月11日发生的世贸大楼和五角大楼 的恐怖袭击事件。(译文据中国日报社)3.CpsDict在词典编纂中的应用3.1发掘对应 词双语库无疑有助于寻找和发掘对应词。我们无法在外研社2001年版的《
汉英词典》(以下《 汉英词典》都指这个版本)上找到“杀伤力”的英文对应词。词典上只有这样一条例证:“这种炮弹杀伤力很强。Thisis a powerful antipersonnel shell.”这样的例句对指导实际的翻译并无多大用处,大型词典尚且如此,众多的小型词典就 更不要说了。借助CpsDict系统,我们可以从双语库中搜寻到这样一条记录:在利坎卡武尔 火山顶,紫外线辐射相当密集,杀伤力很强。空气也因为海拔高而非常稀薄,湖面上常年结着厚厚的冰层,与火星上的水域环境非常相似。Thedamagingeffectsof UV radiationintensify at altitude and the air is very thin.Andthe lake is covered with ice most of the year,aswould have been bodies of water on the Mars.(译文据中国日报社)从以上记录中可以看出,“damaging effect”可以作为“杀伤力”的对应词。虽然国内目前已有试图从英汉双语库中自动发掘对等词(translation equivalent mining)的研究(Yang,et al.2003),但这种基于规则和统计的计算模型还处于刚起步的阶段,离有价值的实用还有很 远的距离。Teubert(2001)指出:“词典的定义是对例证的解读,是意念行为的结果 。我们不可能对它们进行自动化加工,因为语料库中每一项例证都可能有若干不同的解读。因此, 对普通语文文本进行自动化翻译是行不通的。”笔者虽然不完全赞同Teubert的观点,但基 于目前机器翻译和人工智能研究方面的现状,笔者认为没有必要在词典编纂系统中做自动挖掘对等词的尝试。我们把双语库当作“翻译对等物”的资源库,最终选择什么样的对等翻译来作为词目的释