Shvoong首页 > 艺术和人文学科 > 中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96

.

中文信息处理最新成果的检阅——记新加坡中文电脑国际会议I CCC’96

Summary by : TsingHua
浏览次数 : 21  词语: 300   出版日期: 十二月 20, 1996
1.会议概况 由新加坡举办的中文电脑国际会议(xnternational conferenee on chinese computing,简称ICCC)起源于1986年8月。国立新加坡大学举办的ICCC’8 6标志着该国中文信息处理研究的开始。紧接着,1988年8月新加坡的中文与东方语言信息处理学会(Chineseand OrientalLanguages Information Proeessing soeiety,简称COLIps)宣告成立,并出版了该学会的学术刊物《C()LIPS通讯 》。此后,COLIPS同中国中文信息学会建立了亲密的合作关系,它曾先后8次邀请我国学者 赴新举行中文信息处理的专题讲座,并举办了1987年和1988年的中文电脑研讨会。1994年两个学会首次联合在新加坡举办了ICCC’94,会议取得圆满成功。今年6月4日至7日,中、新两国学会再次合作举办了ICCC’96,会议在国立新加坡大学系统 科学研究院举行。来自16个国家和地区的83名专家在会上交流了中文信息处理的研究成果。美 国微软、IBM和苹果等著名计算机企业派代表出席会议,反映了各国企业界对中文电脑产品和研究成果的高度重视。本届大会的主题是“最新技术进展与应用”。由中、新两国组成的程序委员会共征集到论文108篇 ,经专家认真评审被选入大会论文集的论文共70篇,它们分布在以下8个专题中:中文输入(9 篇)、语料库与统计(8篇)、语言分析(9篇)、中文词典(8篇)、机器翻译(10篇)、汉 字识别(10篇)、系统与软件(8篇)、语料库应用(8篇)。从论文分布情况来看,有关语料 库建设和应用的论文共16篇,占入选论文总数的五分之一强,反映出语料库方法在中文信息界开 始受到普遍关注。入选论文最多的前4个国家和地区分别是:中国大陆40篇(占入选论文总数的 57%),新加坡8篇(11%),美国6篇(8.6%),香港5篇(7.1%)。在大陆入选的40篇论文中清华大学有10篇,反映出该校在本研究领域的强劲实力。6月4日四位专家应邀在大会的专题讲座(tutorial)上做报告,报告人和他们报告的题目分别是(按发言顺序排列): 1)陈克健研究员(台北,中央研究院资讯科学研究所):汉语句法分析(Chinese SentenceParsing); 2)董振东研究员(新加坡,国立新加坡大学系统科学研究院):语义网Senseweb的建造与应用(Construetion and Applieation of Senseweb—A Multilingual Semantic Lexieal Database); 3)孙茂松副教授(北京,清华大学计算机科学与技术系):非受限汉语文本的自动分词与词性标注系统(Word Segmentation and part of Speeeh Tagging for unrestrieted Chsnese TextS); 4)邹嘉彦教授(香港,香港城市大学语言信息科学研究中心):中文文本摘要的自动生成(Text Extraetion and Summation in Chinese)。 6月5日上午Iccc’%隆重开幕,会议主席、coLIPs理事长赖金定博士致开幕词后,作为会议东道主的国立新加坡大学系统科学研究院副院长刘斐文博士做了题为“新应用软件中 ·44·国外语言学的自然语言处理问题”(Natura一Language Proeessingi:,the New Realm of Applieation)的主题报告,美国微软公司的罗伯特·斯坦伯格(Robert Stumberger)先生做了题为:“自然语言处理的应用前景与微软公司”(A perspeetive on Nx“p ApplieationS and Mierosoft Researeh)的大会邀请报告。6月7日上午刚从日本赶来的京都大学长尾真(Makoto Nagao)教授以“自然语言处理的若干新进展”(Reeent AdvaneeS in Natural Language Proeessing)为题向大会做邀请报告。 会上报告和展示的一批中文信息处理新成果引起了与会代表的极大兴趣,其中有清华大学的手写体汉 字识别系统和汉语文本的自动分词与词性标注系统,北京工业大学的中文校对软件,美国Systran公司正在研制的汉英机器翻译系统,美国Inso公司的英文文法修正系统Correct English(中文版)等。经过四天的热烈讨论与交流,ICcc’%于6月7日下午闭幕。会 议主席赖金定博士宣布,下届大会将于1998年在回归后的香港举办。2.大会的四个专题讲座2.1.陈克健:“汉语的句法分析”事有凑巧,十年前陈先生曾在此同一会场(ICCC’86)就同一话题发表过演讲。十年来该研究 小组已建立了一个含9万词条的汉语词库,实现了一个基于线图(chart)的汉语句法分析器 〔1,2>,最近又在互联网络(intemet)上公布了一个规模为200万字的、已带分词 与词性标记的汉语平衡语料库。即使如此,主讲人仍坦诚地承认,他们的汉语句法分析器的正确率只有60%左右,远未达到实用化的期望。失败的原因中,未登录词(unknownwords)引起的失败约占20%,语法覆盖而欠缺占15%,输入句子不合法或结构太复杂占5%。报告人回顾十几年来用计算机进行汉语句法分析的经验,归纳了以下四点认识: l)分析器的鲁棒性(:。‘,ustlless)不仅表现在对普通句子有足够高的分析效率,而且表现在有能力处理那些语法未能覆盖的句子、各种歧义结构和不合法的句子等; 2)一个鲁棒的分析器一方面要求其语法表示在句法和语义信息两方面都有良好的覆盖面和层次结构 (hierarchy),另一方面要求其分析过程的控制能体现以下的思想:词汇驱动与框架驱 动,对一个句法结构的合格性(pr叩erness)的某种评价函数,语法松驰机制(grammarrelax-ation Seheme); 3)为了识别句子中的论旨角色(thematiC roles),分析器需装备如下的语言知识:句子成分的句法范畴和语义特证,动词的格框架和选择语义限制,句法格式(Syntactic config盯ation)与词序,以及诸如前置词和后置词那样的间接格(obhque Case)格标; 4)对未来的展望,报告人特别强调了在语法表示上要进一步改进句法和语义信息的覆盖面,在分析算法上要利用句法结构合格性的评价函数和约束松驰机制(constraint relaxationmechanism)来实现分析过程控制的某种优先权排队策略,以此来实现鲁棒的句法分析器。2.2.董振东:“语义网Senseweb的建造与应用” 董先生1993年接受国立新加坡大学的聘请之前是中国软件技术总公司的研究人员,作为英汉翻译 系统“译星”(Transtar)的总设计师,国内许多同行都认识他。在机器翻译的研究中他 一贯重视词库的建设,近年又多次强调语义信息在汉语分析中的重要地位。Senseweb课题 的宗旨是首先建立起汉语的词义范畴体系(sense。ategories),进而凭借汉英和 英马两部电子词典形成一包括汉、英、马来三种语言的词义网络。报告人期望这样一个多语种的词汇语义数据库可以在排歧、文本分类(textcategorization)、词语联想(word finder)和词典生成等领域中得到应用。此间观察认为,该课题组主要靠研究人员的直觉来描 写词语的语义范畴和词义间的关系,尚未在语义网的建造中充分利用包括义类词典和语料库等丰富的在线资源,这不能说不是1996年第4期·45·一个缺点;此外,在Senseweb的建造过程中,研究人员对语义网 的计算方面似乎考虑不多,该资源在词义排歧和结构排歧中究竟能起多大作用也尚未得到证实。2.3.孙茂松:“非受限汉语文本的自动分词与词性标注系统”汉语自动分词研究曾是80年代的热门课题,然而进入90年代以后国内仍在这个领域默默耕耘的研 究者已寥寥无几,孙先生是这支人数不多的队伍中的一员。孙先生之所以坚守在这块阵地上是因为 他充分认识到,自动分词必将成为众多中文信息处理系统的关键技术,汉语的句法分析、汉字识别 与语音识别的后处理、文一语转换、全文检索、文本校对、汉字简繁转换、词频统计、新词发现和 词语搭配研究等等应用无不依赖于自动分词的结果。报告指出,自动分词技术当前面临的三个难题 是:(l)人名、地名、译名等未登录词的辨识;(2)歧义切分字段的辨识;(3)词表、统计 数据和语言规则等资源的制备「3,4」。针对以上问题,孙先生和他的同事首先通过人名、地名 和译名数据库分别统计出人名用字、地名用字和译名用字的字表,又通过大规模语料库的词频、2元模型(bi一gram)、互信息(mutualinformation)和t测试(t一test)等统计信息来进行分词预测,最后按照多主体 (multi一agent)推理的方式实现了一个自动分词和词性标注一体化的系统seg&T ag。低层主体根据各自的局部知识分别进行人名、地名、译名的辨识,各辨识结果之间的竞争与 冲突则由高层主体根据某种分词合格性的评价函数来作出仲裁。据称,Seg&Tag在开放测试中,对三种未登录词的平均召回率(recall)和精确率(precision)分别达97.5%和92 .4%,系统的平均分词精度为98 .8%,平均词性标注精度为94 .6%。2.4.邹嘉彦:“中文文本摘要的自动生成” 由于报告人未向大会提供报告的投影胶片,本文难于对报告内容作出恰当的介绍。报告人的摘要生成 研究主要局限于香港报纸上有关大亚湾核电站的几十篇评论文章,摘要生成的主要依据是文本中象“不但……

More summaries about the 中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96
请给本文打分 : 1 2 3 4 5


评论

Read Free Summaries - Write and Get Paid

Summarize Human Knowledge on Shvoong. Join us!

------