亚太地区自然语言处理的学术盛会——记在韩国汉城召开的NL PRS’95
Summary ratings: 3 stars
(xx voters)
浏览次数:
8
词语:
300
出版日期: 六月 20, 1996
1.会议概况 1995年12月4—7日第三届环太平洋自然语言处理研讨会(Natural Language Processing Pacific Rim Symposium’95,简称NLPRS’95)在韩国首都汉城隆重举行,来自19个国家和 地区的270位代表出席了本届大会。我国有清华大学黄昌宁、周明和蔡莲红、哈工大赵铁军、东 北大学程学旗等5人出席。两年一度的NLPRS最初是由日本情报处理学会(IPSJ)发起的 ,第一届大会1991年在新加坡举行,第二届大会于1993年在日本福冈举行。本届大会的组 织单位除IPSJ外,还有韩国信息科学学会、语言学会和认知科学学会等三个学术团体。大会主席是韩国科学技术大学(KoreaAdvanced Institute of Science and Technology,KAIST)Gil—Chang Kim教授,组织委员会主席是KAIST的Key—Sun Choi(崔杞鲜)教授,程度委员会主席是日本东京工业大学Hozumi Tanaka(田中穗积),副主席有黄昌宁教授,韩国KAIST的Key—Sun Choi(崔杞鲜)和日本ATR研究所的Hitoshi Iida。本届会议共收到投稿161篇,经评审接受论文123篇,其中68篇为小组宣读论文, 55篇是以布告板形式发表的论文。按宣读的68篇论文分类统计,其中句法分析17篇、情报检 索9篇、语料库8篇、语音8篇、机器翻译5篇、语义学5篇、词库4篇、词法学4篇、语言生成4篇、话语4篇。在这十个门类中,前四类的论文数量最多,共42篇占论文总数的62%。会议第一天在简单隆重的开幕式之后安排了五个大会邀请报告,五位报告人和他们的报告题目分别是(按发言顺序排列): 黄昌宁教授(中国清华大学):从一部单语词典中提取定义原语(Derivation of Definition P?;mitive from a Monolingual Dictionary); E.Ijbr辊:矗教授(美国Brown大学):视语言理解为反绎,视反绎为不确定条件下的推理(I出凇g。t嘞岍啦辨咖穗。5bduction,Abduction as Reasoning under Uncertainty); K.镢c“水h曦:t(惫嚼颦蕊.飞运臻警验室):“观其伴,知其意”(You shall Know a Ws霸?甄l§e nm舭馘lI酶龟芦x i 婚如j9鼬嘴髀裁媛《曝鸯察馘。≮聱j:童t登z毒;j 0孽。≯l疆魑I魄■1 I—ibrary in the 21stj}一§!j:·-,},浩奄对ji参罐i囊毽晕l¨Hi龟鼷}I皂如rr专料毫q,{鱼鲤蜒跨、j’。龟s婶孑l。j疑;逸氧tiii-4~矗婚t…-;囊:鼍氍n:一;j参姥哟第二鬟拇镱量零兮哩j!、迥‘萎嘻蹿≮,井辱j::粤:‘÷i t。。。警bp:j窘:曩兰F:-f÷宣啦譬t的霉滚。鬟避:‘蕾鸡鬻嘎‘≯“,喹、会谈:{“j!r|{强曩F午t‘善舔 13,嗵z疑参峰鲤鬻肇jt霉釜0j丫冬粒‘i遗j‘I{≥?,L.批s!ta≤c:粤:t0 ·。;∞涎;尊0鬟}一≮,:、{;il体毒聋一蘩的i{窀每卜蘸通孑一}零拳0茸:.母甄咄jj譬攀警弩∞攀髓圩冬零睁每肇。}‘阍浠誓:t警蕺昌:予铺+磷嘲献鹰盒‘l嫩f’善跳莓毒。霉¨簿占ljj摹≮量避避.“;簧毒一诲∞跨:;·-r≮甘锋繁瞵?孙?赢舞浮菁I:蒋蹲蕾艟眦嚣j:专哼。。。囊rit蠢睁砖?i舀夺氕州j?舡,k≤:¨。脚弘,沁,照;2,3敬授、国书tj#鞠。}1jt越.Ni∽款式 H一瓤答毒‘{i学㈦n :、ti’h.:0张拄蜓‘ 造≥ 。~j 敷节 l强 “戳¨ 呼蛳黪pU。国Wolverhampt~)n大学RLlslan Mitkov和韩国KAIsT的崔杞鲜教授等。2.大会的五个邀请报告2.1.黄昌宁在报告中首先解释了“定义原语”这个术语。Yorick wilks曾对语义原语作过如下定义:“原语(或者说一个原语集加上一部句法)是一个语义消减 装置,自然语言可以通过一个翻译算法转化成用原语表述的语义表示,而原语本身不能再消减或解 释成其他同类实体”。一般认为语义原语分成以下两种:。一种是规定性原语(prescriptiveprlmltive),是事先人为规定的语义原语;另一种是描述性原语(desc:riptive prim.five),是从某种自然语言的资源中获取的语义原语。目前获取描述性原语的研究都 是以单语词典的释义文本为资源来进行的,所以又称之为定义原语。换句话说,定义原语就是能定 义词典中所有其他词项的一套语义原语。如图1所示,如果p是一部单语词典的定义原语集,那么 由p直接定义的词项集为D(p,1)。同理p+D(p,1)又可以定义词项集D(p,2)。以此类推,该词典中除p以外的全部词项最终均可以通过P直接或间接地定义。’ 图示:一部单语词典的定义原语集p通过多轮定义最终 将定义该词典中除p以外的全部词项 1986年I)aile3r曾在美国《计算语言学》杂志上撰文证明,从单语词典中获取一个最小的语义原语集的问题可以转化为图论中的一个NP完全问题——返回节点集问题(feedbac:k Vel_fexset:p r(~blem),说明这个问题在计算机上是不可解的。清华大学的研究表明,尽管获取一部单语 词典的最小原语集在目前条件下是不可能的,但通过对义项图的划分和启发式算法仍可以找到一个 较小的原义集,而且其算法对不同语言普遍适用。他们以《现代汉语词典》(社科院语言所,商务 印书馆,1979)的释义文本为资源,采用不同的启发式算法分别获得了该词典的四个原语集, 其中最大的一个原语集含5500个原语,最小的有3854个原语。接着他们又用《同义词词林 》(梅家驹等,上海辞书出版社,1983)的语义在原语中分类码对上述原语进行了标注。标注 结果表明,12个语义分类的大类中除“敬语”一类未在原语中出现以外,其余11类都出现了。 四个原语集在11个语义类中的分布大体相同,尤其是分布频度最高的前6个语义类的排列顺序在 四个原语集中相同,它们依次是:(具体)物、抽象物、活动、特征、现象与状态和时间与空间。 其余五类:人、动作、助词、关联和心理活动的排列顺序略有出入。人们普遍认为,语义原语的获 取对词典学和词汇语义学的研究具有重要意义。2.2.Charniak的报告论述了反绎(a bduction)在语言理解中的应用。反绎是一种依据“结果”来推断“原因”的推理过程,犹如医生通过病人的症状来判断其病因一样,例如:根据:Mice packed a suitcase和Alice went to the airport, 推断:Mice is taking a trip. Charniak列举了如下一些可以通过反绎来解决的语言理解问题: ·计戈0(plan)的识另0 After’packing a bag she went to the airport(to fly?) ·指称(reference)消歧 He picked up some railk from the shelf and paid for it(milk)? ·46· 国外语言学·词义(word—sense)消歧 She took her money to the(savings?)hank. ·转喻(metonomy)He played some(pieces by?)Beethoven. ·格(case)消歧 She killed the rats with(using?)some poison. ·名词一名词关系(noun—noun relations) I disengaged the temperature alarm(alarm to report on temperature?) 报告人还详细介绍了他们用贝叶斯网络(Bayesian Network)的概率方法进行几种反绎推理的实验。有趣的是,Charniak报告中宣称他 本人目前已完全放弃了这方面的研究,理由是尽管当前所有的自然语言都强调自己是“基于知识” 的,但由于不存在某种标准的知识表示,而知识数量又如此浩瀚,因此要想表示这些知识就意味着 系统不可能在规模上实现真正的扩充。2.3.Church报告的题目引用了著名语言学家J. Firth的一句名言:“观其伴,知其意”。报告详尽地介绍了Bell实验室在词汇学和词典学研究中大力倡导的n元法(n—grams)、互信息(mutu—alinformation)和t一测试(t—score)等基于语料库的统计方法。众所周知,n 元法已成功地应用于词性标注和语音识别等领域中,实质上是一种基于Markov模型的慨率统 计方法;互信息揭示了词语之间的关联(association),而t一测试指出了词语之间 的差异(differences)。颇有意思的是,Church列举了学术界对待统计方法的三种截然不同的态度:第一种人坚持所谓“自组织”(self.organizing)观点,以IBM为代表。他们认为所有的问题都可以用统计方法解决。 第二种人主张统计方法与直觉(intuition)方法的结合,以Bell实验室为代表。他们倡导的研究方法叫“探索性的数据分析”(Exploratory Data Analysis,简称EDA法),大致包括以下四个步骤:(1)采集数据;(2)分析数据;(3)形成假设;(4)测试。 第三种人对统计方法基本上持否定态度,以Y.wilks为代表。他曾幽默地把统计方法比喻为“石头汤”(stone soup),并且用如下的不等式来评价统计方法: 统计 + 直觉≤直觉 (读作小于或等于) 统计