Shvoong首页 > 艺术和人文学科 > 1992-1993年我国计算语言学研究述评

.

1992-1993年我国计算语言学研究述评

Summary by : TsingHua
浏览次数 : 13  词语: 300   出版日期: 七月 10, 1994
1992-1993年我国计算语言学研究述评黄昌宁作为语言学、计算机科学、数学和认知科学相 互交融的新兴学科,两年来我国计算语言学研究继续蓬勃发展,部分成果开始引起国外同行的关注 ,国际合作项目的数量呈上升趋势。1992年9月24-26日在北京召开了1992年全国机 器翻译学术会议[5],同年10月26-28日在北京举行了第三届中文信息处理国际会议[6 ],1993年11月5─7日在厦门举行了全国第二届计算语言学联合学术会议[4]。仅收入 以上三个会议的学术论文就已超过200篇。一总论黄昌宁在《关于处理大规模真实文本的谈话》 ([1]1993.2)中指出,以1990年8月赫尔辛基第十三届国际计算语言学大会(CO LING-90)和1992年6月蒙特利尔第四届机器翻译理论与方法国际会议(TMI-92 )为转机,国际计算语言学界已把大规模真实文本的处理确认为今后的战略目标。过去30年的研 究历史表明,单纯依靠基于规则的所谓理性主义(rationalism)方法不能满足信息社 会对语言信息处理产业的需求。因此,国际学术界在语言信息处理的理论、方法和工具等问题上正 酝酿着一场全面的革新。《谈话》不仅介绍了国外近年在大规模真实文本处理方面所开展的研究, 而且特别强调了经验主义(empiricism)─—即语料库方法和词汇主义(lexica lism)这两个引人注目的学术动向。《谈话》的观点在1993年7月神户举行的第四届机器 翻译高层会议(MTSummitⅣ)上再次得到验证。英国学者约翰·哈钦斯(JohnHut chins)在大会的特邀报告中指出,第三代机器翻译系统的研究始于1989年,其主要标志 是在机器翻译中引入语料库方法,包括统计方法、基于实例(example-based)的方 法以及通过语料加工使语料库转变为语言知识库等。冯志伟的论文《计算语言学对理论语言学的挑 战》([1]1992.1)列举大量事实说明,计算语言学已成长为一门独立的学科。其影响遍 及传统理论语言学的各部门,并使这些部门面目一新。国外语言学的进步,无论在理论上还是在方 法论上,都给汉语的语法研究提供了宝贵的启示。作者建议把汉语语法研究的重点逐步从描写转移 到解释上来,即尽可能把各种语言现象的出现条件讲清楚,建立解释性的汉语语法体系─—汉语语 法的产生式系统。作者还呼吁汉语学界重视语义学、电子词典和语料库语言学(corpusli nguistics)的研究。冯志伟还在《中国计算语言学研究的世界化刍议》([1]199 4.1)一文中指出,“我国计算语言学的世界化包括两方面的内容:一方面应该努力学习国外的 先进理论和方法,缩短与世界的差距;另一方面,应该结合汉语汉字的特点,创造出独具中国特色 的理论和方法,为世界计算语言学的发展作出贡献。”文章批评国内许多研究人员没有阅读外国文 献的习惯,因而同国际学术潮流严重脱节。作者指出,那种认为国外的理论只适用于印欧语言而不 适用于汉语的说法,是不符合实际的。如果我们过分地强调汉语的特殊性,就会走向反面。二    句法-语义的分析两年来在汉语的句法-语义分析研究中,国内研究人员加强了以下三方面的工 作:(1)建立大规模词库,对词库中每条词语的句法-语义属性尽可能作出详细的描写;(2) 制定一种陈述性(而非过程性)的规则语言;(3)实现一种以复杂特征集合一运算为基础的句法 -语义分析器。这种分析器接受一个汉语输入句子(或经过分词处理和词性标注的句子),而输出 代表该句子意义的语义网络(或实例化的谓词框架)。集中体现上述设计思想的是电子部计算机与 微电子发展研究中心主持并有多所院校参与的国家“八五”项目《中文信息处理技术应用开发平台 》(又称9051程),参见李东等《“CIPP─—中文信息处理平台”工程》([4]161 -169)。该工程的汉语句法词典由北京大学负责开发,见俞士汶《现代汉语语法电子词典的概 要与设计》([6]186-191);语义词典由北京语言学院负责开发,见孙宏林《信息处理 用汉语语义词典的描述文法》([1]1993.7.张普《论语义场》([5]28-40)、 陈群秀和张普《信息处理用现代汉语语义分类体系(之一):属性分类》([4]22-28); 动词的谓词框架由河南财经学院负责开发,见鲁川等《汉语信息处理的知识表示:语义网络》([ 6]50-57)。李东和陈志明的论文《规则描述语言及汉语的句法规则体系》([6]307 -317)介绍了为905工程设计的一种陈述性的规则描述语言和用这种语言表达的汉语句法一 语义规则集。该语言采用上下文无关语法描写短语和句子的表层结构规则,同时针对单一标记的上 下文无关语法生成能力过强的缺点,引入了复杂特征和合一运算,以便通过词、短语和句子的句法 -语义属性来实现短语和句子归约过程中的约束。王宝库等《一个基于复杂特征集的汉语分析器设 计》([6]217-222)、栾浩和黄昌宁《一个基于合一的汉语句法分析器UBCP的实现 》分别介绍了东北大学和清华大学为905工程的汉语分析器所做的原型实验。这两个分析器均利 用了905工程提供的大规模汉语词库和句法一语义规则集,采用语法制导和词汇驱动的分析策略 :一方面以高效的Tomita算法为基础,按上下文无关规则实行语法制导下的分析;另一方面 通过复杂特征集和合一运算,实现词汇驱动方式的约束与归约。与此同时,龚育昌等《一种汉语广 义LR分析器》([6]205-210),沙时新、吴立德《伪合一的扩充及其实现》([6] 135-141)等论文也都反映了国内研究人员在寻找新型的汉语句法-语义分析器方面所作出 的努力。为了配合有效的句法-语义分析,在原先十分薄弱的词汇语义学和语义词典等研究领域, 两年来取得了长足的进步。如贾彦德《现代汉语总语义场概述》([4]29-34),梅家驹、 高蕴琦《语义形式化的研究》(新加坡《中文与东方语言处理学会学报》1992.1.40-4 7),何克抗《机器词典建造与义素分析》([6]135-141),陆汝占《动态逻辑与形式 语义》([4]35-40),张潮生和黄昌宁《汉语内部表达》([4]223-230),江 红等《概念词典的设计与构造》([4]218-222),刘海涛《维特根斯坦语言哲学对计算 语义学的影响》([4]61-66)等都是很有参考价值的论文。1993年底《动词大词典》 [7]的出版,说明国内在汉语述语动词的论元结构和论旨属性研究方面正在取得重大进展。林杏 光和鲁川为该词典所写的序言《论深化现代汉语格关系的研究》([7]3-21)中,全面回顾 了我国学者在格语法方面的研究历史,提出了他们根据动词所表明的动作或状态相关的主体客体间 的语义关系,把动词粗分为六个次类(他动词、自动词、外动词、内动词、领属动同和系属动词) 的观点。《词典》采用22个格(即论旨角色)的系统对现代汉语的1000多个动词的2006 个义条进行了全面的描写。由于述语动词和形容词是句子句法结构和语义解释的中心,因此在机器 词典中如能对句子中述语动词与其周围的名同性成分所发生的格关系作出详尽的描写,必将大大提 高自然语言理解系统和机器翻译系统的性能。这方面的研究正日益受到国内研究人员的重视,王玲 玲《关于必用论元的确定问题》([4]47-53),陈群秀等《现代汉语述语动词机器词典研 究初探》([4]231-236),罗建林《汉语动词的概念和语义特征分析》([6]268 -273)等论文均有一定的参考价值。显然,词汇语义学和语义词典将继续成为国内计算语言学 研究的热点之一。三语料库建设和语料库方法研究为了实现大规模真实文本处理这个战略目标,国 内更多的研究人员开始重视语料库建设和基于语料库的自然语言处理方法研究。1991年国家语 委已把建立现代汉语语料库列入国家语言文字工作的十年规划和“八五”计划,见刘连元《199 1年中文信息处理技术的进展》([3]1992.11)。这项工程7000万字语料的选材、 清单制定和样本制作工作目前已经结束,并于1993年9月在京通过了专家审定,见L.Y《现 代汉语语料库选材专家审定会在京召开》([3]1993.11)。胡明扬《现代汉语通用语料 库的建库原则和设想》([1]1992.3),黄昌宁和苑春法《国外语料库述评》([5]3 55-369),孙宏林《现代汉语研究语料库系统的总体设计》([4]67-72),苑春法 等《新一代语料库的建设与管理》([4]73-78),曹剑芬《谈谈语料库的语样选取问题》 ([4]84-89)等论文从不同侧面反映了建设语料库的指导思想。为了使语料库能成为真正 的语言知识库,从分词、词性标注、句法标注到语义标注等各类语料加工工具的研究与开发,两年 来取得了一批有实用价值的成果。汉语文本的自动分词是语料加工的第一步,近年来研究者的注意 力更多的集中于专名、译名和未登录词的处理上,如郑家恒和刘开瑛《自动分词系统中姓氏人名处 理策略探讨》([4]139-143),孙茂松和张维杰《英语姓名译名的自动辨识》([4] 144-149),宋柔等《基于语料库和规则库的人名识别法》([4]150-154)等。 汉语文本的词性自动标注系统实现了零的突破,这方面的论文有:白栓虎等《汉语语料库词性标注 方法研究》([5]408-415),刘开瑛和赵军《语料库词类自动标注算法研究》([5] 378-386),周莉娜等《汉语词类标注规则的获取技术》([4]120-125),周强 和俞士汶《一种切词和词性标注相融合的汉语语料库多次加工方法》([4]126-131),台湾张照煌和陈正德《经HMM作中文词性之自动标注》([4]114-119)等。周明等《具有自学习能力的语料库句法标注工具CSTT》([4]155-160)介绍了作者采用依存语法和上下文相关分析方法实现的一种汉语语料库句法标注工具。作者虽然对1300个汉语简单

More summaries about the 1992-1993年我国计算语言学研究述评
请给本文打分 : 1 2 3 4 5


评论

Read Free Summaries - Write and Get Paid

Summarize Human Knowledge on Shvoong. Join us!

------