Shvoong首页 > 互联网 & 技术 > 自然语言生成技术及其应用

.

自然语言生成技术及其应用

Review by : TsingHua
浏览次数 : 16  词语: 300   出版日期: 一月 20, 1997
自然语言生成(NI名)是自然语言(NLP)句话讲就足我怎么讲这些内容。这个阶段根的两大领 域之一,国外许多学者都在致力于·据前面规划器输出的中间表达形式生成表N比技术的研究。本 文主要介绍有关文本层语言形式,它要处理语言的选词、词的形态自动生成器的实现方法。并具体 描述四种常变化一印词组的匹配等。在文本规划阶段,我用的生成器实现技术及其优缺点。们一般进一步划分为两个部分,文本内容规在人们进行文章生成过程中,头脑中首划部分(宏观规划)和文本句子规划部分(微先总是有某种“ 想说的东西”存在着,这些想观规划)。文本内容规划部分主要是将用户说的东西,在大多数的情 况下,不外是两三个输入的信息变成很细的颗粒,它使系统知道基本概念以及他们之间的某种可成 立的关哪些是主要的信息,哪些是该忽视的,决定文系。到了要把它fI’-I说出来或写出来的 阶段,本的段落结构。文本句子规划部分的工作是再考虑表达这些慨念的单词的语法特证。在把内 容规划的结果JtI适当的语言组成结构来计算机语言学领域内,我们恨据上述描述过表示。在句 子规划阶段主要执行下列任务:程,把文本自动生成的过程分为两个阶段:文将内容规划对象映射 到(多个)语言资源L;本内容决定阶段或称为文本规划阶段,它的将内容规划对象组合和排序成 段落和句一子;主要作用可以归纳为一句话一我应该讲ff一么句子辖域确定;消除冗余,精炼语句;嵌入词内容?另一个阶段为表层形式生成,它用一的引进和常规用语的修饰;布局和格式处理。‘6·中文信息·门卜:9,一年第1期O热点传真O 现6通过对现有几种实现技术的描述和人写文章时所用到的各种谓词动作的特征,比较,供开发人员 选择一种较为合适的技术描绘出文章中命题之间的结构关系。例如:进行系统开发。类比谓词是文章中作一个类比;成分谓词描、一二、,二_,。,,、,。,L卜述的是一个对象的子部分或子类型:属性谓一、文本自动生成的实现技术艺二言,,::’‘丁立二二二,只二飞几笠’‘” 、~行一,-月一,’、一,/”一~一,一词则是提供一个实体或事件的具体细节。 在许多应用系统中,尽管宏观规划、微观Schema技术用于规划时,主要步骤是:规划和最后的 文本实现阶段有许多差别,但首先分析生成文本的类型,找出文本结构和是通常使用的技术是差不 多的,有许多应用句子上的特征,并将这些特征抽象出来.用修系统在不同阶段采用不同的生成技 术,使采辞性谓词描述出来。例如:我们在开始一个用的技术尽可能符合实际需求。故事时,通常是以场景,人物或时间开始。又目前一般有卯种文本自动生成技术:如McK~(1 985)发现,说话者常常将一对 象或一事件与其它对象或事件通过下述方面1.模板生成技术《T打nP卜te一喇-、)进行识别性描述:①将对象作为子类的成员 标识;②提供关于这个对象的成分或属性信 这是人们最早采用的生成技术,原理和息;③详细描述所提供的信息;④提供更多的填充方法相似, 系统事先设计好几种可能出特殊说明。这种有一定规律的结构特征用谓现的情况,构造几个相应的 模板,每个模板包词写出后,就称为模式(Schema)。一旦括一些不变的常量和一些可变的 变量,当用Schelna定义之后,我们在生成过程中所作的户输入一定的信息后,文本生成器 将这些信工作就是根据用户的输入信息或要求,选择息作为字符串嵌入到模板中替代变量。这种一 个合适的段helna,然后填充该反h~中生成器称为非语言的文本生成器,因为它的的谓词, 输出线性化的修辞性谓词。通过这处理只是在字符串的水平上,没有在深层次种方式来指导生成过 程。七进行语言处理。这种技术思路简单,目前模式生成技术属于N比技术,因此,它仍有十分广 泛的用途。例如:有许多应用软具有较好的维护性,输出的文本质量较高,此件都采用该技术处理 出错信息,发警告信息。、外,与其它两种Nl一生成技术相比,段helna本方法的优点是工 作效率高,实现手段简单,比较容易定义,它的缺点是只适用有一定固缺点是生成的文本质量不高 ,难以满足人们定的段落,没有其它两种技术生成的文本灵多变的需要,不能具体问题具体分析的 生成活。文本,其次,使用模板技术的系统维护、修改或扩充十分困难。3.短语/规划扩展技术‘Phx朋‘、E一,2.模式生成技术(,;~一翩位”erdt油)短语/规划扩展技术是基于RST(Rhetorical Structure Theory)理论。RST是 Scllcma生成技术是基于语言学的修辞关于自然语言文本组织的描述性理论。文本性谓词(R hctoric司Pr汕cate),这种方法按修各种组成部分〔子句、句子、句子顺序)的连 接辞性谓词将文本中句子功能进行分类,并把关系被一致性定义。,一种R盯关系包含两标准模式 与修辞性谓词结合,使它们具有完部分:核心部分(Nudeus)和附属部分整性。所谓修辞性 谓同是指写文章的人用来(Satellite)。核心部分表达了作者的基本的表示信息的一种方法、手段,这些谓词表达了论题。每一种RST理论被用来进行具体的,7·O热点传真O中文信息·aP. 1997年第1期操作,即将完整的修辞关系映射到对应的规属性特征集匹配的方法。目前还没有基 于属划操作符上。大致过程是,每一规划操作符性特征的宏观规划器。该方法的优点是概念都包含 一个联系的目标和一个或多个子目标的简单,任何一种不同种类的语言都能轻易的表,每个子目标 确定了一些包含在文本中的作为特征加入进去。生成的文本相当灵的信息(要写在文本中的一些语 句)。每一个活。他们的弱点是很难维护各种属性之间的操作符都与自己的目、标联系起来。当所 有的内部关系,难以控制特征集的选择。子目标完成后,整个操作符本身也就完成了。__,,, ,、,,_,.客早篇或益兹军奋丰菇改认二橇二二试了占二、天气预报自动生成系统设计文本规 划器的主要工作是找一个对于输出目一“~甲绷、。明一,,’一、·!标合适的操作符,然后找 出对每个子目标相我们课题组现在正与德国DFKI人工智联系的信息。这样一直递归循环进行, 直到’能研究中心合作进行NLG技术的研究工作,每个部分都是一个有一定语义的简单句为目前 正在进行NLG技术自动生成天气预报止。这棵生成的树称为篇章或规划树,在该的系统。通过比 较,因为天气预报文本的特树上的树枝之间的关系用一些连词表示。例点是预报内容有一定的模式 ,但内部具体细如:“然而、但是、为了”,由这些连词帮助整篇节有一定的变化。因此段h~技术比较合文章的通顺。理,我们的生成模型如下:与&h~技术相比,phr搜/醉an技术有厂飞藻藉盲环不瓦舀瓜蔺不门更强的灵活性,在树的生 成过程中,同时也就一一州一一「一一生成了文本的总体结构。它的主要缺点是它J知识表示方法 {刊文本宏观规划卜鱼继粗退}的基本数据结构、文本规则库常常比较难建一一土一一立,因为句 子之间的内部关系必须仔细考虑l鑫二亡卫丛二些卫述到二认一乙丁厂二.丁一了;一’、一二几 万~二二万.-二几一J二告限制,防止不恰当的扩展,这部分的工作主要两;不不蔽王三刃依靠经验。杏}句法生成}4.x性特征生“术(~一‘~ti一,‘仁邃画 属性特征生成技术从某种意义上讲是生模型主要由文本宏观规划、文本微观规成技术中最困.难的。 在这些系统中,每一个划、多语种语句法生成、知识的表示方法、推可能的最小的可以变化的部分 都由一个简单理决策方法等方面组成。文本宏观规划是将的属性特征表示出来。例如:一个句子的 语原始信息和文本的表达要求作为输入,根据气是主动还是被动、它的语言动作是问题还文本模式 进行信息的分类、归纳,以确定文本是命令或是一个、声明?输出的每个单元都与的表达主题和内 容。文本微观规划是将文本一个特定的唯一的属性特征集相连。输出过内容按照各种的文本表示结 构知识和语用知程是对要生成的每个信息部分增加属性特识,用文本内部表达式来表示,它反映了 一种征,尸直到能够唯一的决定一个输出结果为‘文本意义和结构的概念性行为。多语种文本止, 然后由一个线处理过程将一串属性特征句法生成是将文本内部表示转成各语种文本集变成线性的符 号串。在句子一级水平上,的表层形式,而根据各语种的文本语义、句法特征属性是语法特征,输出的符号是词汇。和词形态知识将文本内部表达转成表层线性在句子生成一级上,有两种常用的方法,表示,知识表示方法指在该模型中定义的所特性属性改变转移网络、输入属性和预定的有知识的形式化表示方法。如各种语种句 .8,法、语义和语用知识、文本模式知识和焦点移报告、客户服务部门的信件自动生成、产品的动 控制知识。推理决策方法指运用由规划策说明书等,同时生成技术自身也具有相当的略所制定的推 理、决策方法,如根据文本中句灵活性。开发人员要设计一个好的文本自动子的焦点规则来控制全 局和局部焦点移动,生成系统,首先就要根据应用的实际情况,分从而控制文本的连贯性。析输出文本的特点,选出合适的生成技术,建立合适的生成模型、文本,为开发人员提供一 自然语言生成技术是应用范围十分广泛点选用生成方法的思路。的新技术,它适用于气象预报、股市行情分析自然语言生成技术及其应用@贾佩山$上海交通大学!200030<正> 自然语言生成(NLG)是自然语言(NLP)的两大领域之一,国外许多学者都在致力于NLG技 术的研究。本文主要介绍有关文本自动生成器的实现方法。并具体描述四种常用的生成器实现技术及其优缺点。在人们进行文章生成过程中,头脑中首先总是有某种“想说的东西”存在着,这些想歉拍疃及桓 隽档哪勘旰鸵桓龌蚨喔鲎幽勘甑募虻?任何一种不同种类的语言都能轻易的表,每个子目标确定 了一些包含在文本中的作为特征加入进去。生成的文本相当灵的信息(要写在文本中的一些语句)。每一个活。他们的弱点是很难维护各种属性之间的操作符都与自己的目、标

More reviews about the 自然语言生成技术及其应用
请给本文打分 : 1 2 3 4 5


评论

Read Free Summaries - Write and Get Paid

Summarize Human Knowledge on Shvoong. Join us!

------