Shvoong首页 > 艺术和人文学科 > 自然语言处理中的概率语法

.

自然语言处理中的概率语法

Summary by : TsingHua
浏览次数 : 61  词语: 300   出版日期: 六月 15, 2005
在自然语言的计算机处理中,基于规则的句法剖析主要是使用Chomsky的上下文无关语法。在 上下文无关语法的基础上,学者们提出了自顶向下分析法、自底向上分析法、左角分析法、CYK 算法、Earley算法、线图分析法等行之有效的剖析技术(冯志伟2000,2002,20 03a,2003b,2004)。但是,这些分析方法在处理自然语言的歧义时都显得无能为力 。近年来对上下文无关语法的改进主要体现在两个方面:一方面是给上下文无关语法的规则加上概 率,提出了概率上下文无关语法,另一方面是除了给规则加概率之外,还考虑规则的中心词对于规 则概率的影响,提出了概率词汇化上下文无关语法。这些研究把基于规则的理性主义方法与基于统 计的经验主义方法巧妙地结合起来,取得了很好的成果,反映了当前自然语言处理的新趋势。本文 主要介绍概率上下文无关语法和概率词汇化上下文无关语法,我们把它们统称为自然语言处理中的概率语法。1.上下文无关语法与句子的歧义上下文无关语法(ContextFreeGrammar,简称CFG)可以定义为四元组G={N,Σ,P,S}。其中,N是非 终极符号的集合,Σ是终极符号的集合,S是初始符号,P是重写规则,规则的形式为:A→β。 规则左部的A是单独的非终极符号,规则的右部β是符号串,它可以由终极符号组成,也可以由非 终极符号组成,还可以由终极符号和非终极符号混合组成。在英语句子swatflieslik eants中,swat可以做动词使用,含义是“猛击”,也可以做专有名词使用,作为苍蝇的 名字;likes可以做动词使用,含义是“喜欢”,也可以做介词使用,含义是“如像”;fl ies可以做动词使用,含义是“飞”,单数第三人称现在时,也可以做名词使用,含义是“苍蝇 ”,复数;ants是名词,含义是“蚂蚁”,复数。如果我们使用上下文无关语法的剖析技术( 如线图分析法、Earley算法等)来剖析这个英语句子swatflieslikeants,可以得到如下三个结构不同的树形图。具有图1树形结构T1的句子的含义是“像猛击蚂蚁一样地猛击苍蝇”。SVP VerbNPPP swatNounPrepNP flieslikeNoun ants图1树形图T1具有图2树形结构T2的句子的含义是“swat像蚂蚁一样地飞”。S NPVP NounVerbPP swatfliesPrepNP likeNoun ants图2树形图T2具有图3树形结构T3的句子的含义是“叫做swat的一些苍蝇喜欢蚂蚁”。S NPVP NounNPVerbNP swatNounlikeNoun fliesants图3树形图T3同样一个英语句子得到了三种不同的分析结果。究竟这个句子的 结构和含义是什么?我7612005年第2期们处于举棋不定、进退两难的困境。目前已经提出 了不少基于规则的歧义消解方法来排除歧义,例如,基于选择限制的方法、基于词典的词义排歧方 法等。但是这些基于规则的方法消解歧义的效果都不很理想。于是,学者们试图改进上下文无关语 法,采用基于统计的方法,计算上下文无关语法重写规则的使用概率,试图根据概率来改进上下文 无关语法。在自然语言处理中关于规则方法和统计方法的争论反映了语言学中的理性主义思潮与经 验主义思潮的对立。有一些学者往往持相当极端的观点。Chomsky早在1956年就说,“ 然而应当认识到,‘句子的概率’这个概念,在任何已知的对于这个术语的解释中,都是一个完全 无用的概念。”Chomsky完全无视“句子的概率”,他对于统计方法是嗤之以鼻的。而IBM公司Watson研究中心语音研究组的负责人FredJelinek在1998年(当时他在IBM语音研究组)却完全排斥规则方法,他竟然语出惊人 地说:每当语言学家离开我们的研究组,语音识别率就提高一步①。他试图完全排斥熟悉语言规则 的语言学家参加自然语言处理的研究。应该说,这两位著名学者的意见都是极端偏颇的。更多的学 者则以平和的心态,积极地探索把规则方法和统计方法相互结合的途径,他们的研究主要包括两方 面,一是提出概率上下文无关语法,二是提出概率词汇化上下文无关语法。下面我们分别介绍这两种语法。2.概率上下文无关语法概率上下文无关语法(probabilisticcontextfreegrammar,简称PCFG)又叫做随机上下文无关语法(stochasticcontext freegrammar,简称SCFG)。这种语法是由Booth(1969)最早提出来的。 上下文无关语法可以定义为四元组{N,Σ,P,S}。而概率上下文无关语法则在每一个重写规 则A→β上增加一个条件概率p:A→β

这样,上下文无关语法就可定义为一个五元组G= {N,Σ,P,S,D},其中D是给每一个规则指派概率p的函数。这个函数表示对于某个非终 极符号A重写为符号串β时的概率p。这个规则可写为:P(A→β)。或者写为:P(A→β| A)。从一个非终极符号A重写为β时,应该考虑一切可能的情况,并且其概率之和应该等于1。 例如,根据对于语料库中规则出现概率的统计,我们可以获得规则的概率,这样,我们就可以在上 下文无关语法的规则中,给每一条规则加上概率了。因此,我们也就可以把上下文无关语法改进为 一个包含概率规则的上下文无关语法了。例如,这些包含概率的规则如下:861当代语言学①这 是Jelinek于1988年12月7日在自然语言处理评测讨论会上的讲话。在Palmer 和Finin(1990)描述这个讨论会时,没有写下这段引文;一些当时参加会议的人回忆,Jelinek讲的话更为尖刻,他说:“EverytimeIfirealinguisttheperformanceoftherecognizerimproves.”(“每当我解雇一 个语言学家,语音识别系统的性能就会改善一些。”)S→NPVP<0.8>S→VP<0.2 >NP→Noun<0.4>NP→NounPP<0.4>NP→NounNP<0.2>VP →Verb<0.3>VP→VerbNP<0.3>VP→VerbPP<0.2>VP→Ve rbNPPP<0.2>PP→PrepNP<1.0>Prep→like<1.0>Verb →swat<0.2>Verb→flies<0.4>Verb→likes<0.4>Nou n→swat<0.05>Noun→flies<0.45>Noun→ants<0.05> 注意,这些规则中,所有从同一个非终极符号重写的规则的概率之和都为1。只有以Noun为左 部的规则的概率之和不为1,由于名词数量很多,我们只简单地列举了几条。这些数据来自Eug eneCharniak的专著《统计语言学习》(StatisticLanguageLearning,TheMITPress,1993),都是示例性的。准确的数据应该到树库中去获取。如果分析的句子是有歧 义的,概率上下文无关语法可给句子的每一个树形图一个概率。一个树形图T的概率应该等于从每 一个非终极符号的结点n扩充的规则r的概率的乘积:P(T)=∏p(r(n))n∈T其中, n表示非终极符号的结点,r表示由该非终极符号扩充的规则,小写字母p表示规则r的概率,T 表示树形图,大写字母P表示整个树形图的概率。这样一来,就可以比较不同树形图的概率,从而 进行歧义的消解了。例如,我们可以在前面那个句子swatflieslikeants的三个 不同的树形图的每一个非终极结点上,加上相应规则的概率。树形图T1加了概率之后变为图4: S<0.8>VP<0.2>Verb<0.2>NP<0.4>PP<1.0>swatNou n<0.45>Prep<1.0>NP<0.4>flieslikeNoun<0.05>a nts图4非终极结点上加了概率的树形图T1把结点上的相应规则的概率相乘,就可以计算出树 形图T1的概率如下:P(T1)=0.8×0.2×0.2×0.4×0.45×1.0×1. 0×0.4×0.05=1.152×10-4树形图T2加了概率之后变为图5:961200 5年第2期S<0.8>NP<0.4>VP<0.2>Noun<0.05>Verb<0.4 >PP<1.0>swatfliesPrep<1.0>NP<0.4>likeNoun<0 .05>ants图5非终极结点上加了概率的树形图T2把结点上的相应规则的概率相乘,就可 以计算出树形图T2的概率如下:P(T2)=0.8×0.4×0.05×0.2×0.4×1 .0×1.0×0.4×0.05=2.56×10-5树形图T3加了概率之后变为图6:S< 0.8>NP<0.2>VP<0.3>Noun<0.05>NP<0.4>Verb<0.4 >NP<0.4>swatNoun<0.4>like<0.4>Noun<0.05>fli esants图6非终极结点上加了概率的树形图T3把结点上的相应规则的概率相乘,就可以计 算出树形图T3的概率如下:P(T3)=0.8×0.2×0.05×0.4×0.4×0.3 ×0.4×0.4×0.4×0.05=1.2288×10-6比较这三个树形图的概率,我们 有:P(T1)>P(T2)>P(T3)根据树形图的概率,我们可以判定:swatflie slikeants这个句子最可能的结构是树形图T1,它的意思是:“像猛击蚂蚁一样地猛击 苍蝇”。这个结论与我们的直觉是一致的,足见这个方法是可行的。因此,使用这样的方法,通过 比较同一个有歧义的句子的不同树形图的概率,选择概率最大的树形图作为分析的结果,便可以达 到歧义消解的目的。这种歧义消解算法的实质是:从句子S的分析所得到的若干个树形图(我们把 它们叫做τ(S))中选出最好的树形图(我们把它叫做T)作为正确的分析结果。就形式而言,如果T∈τ(S),那么,概率最大的树形图T(S)将等于argm

More summaries about the 自然语言处理中的概率语法

请给本文打分 : 1 2 3 4 5


评论

Read Free Summaries - Write and Get Paid

Summarize Human Knowledge on Shvoong. Join us!

------