实现文本理解,进而进行基于理解的信息示主题,揭示内容的范围和性质,说明主题的抽取,是当今 信息社会所迫切需要的。要实现表达方式、体裁或表明主题的线索。对于一般完整的文本理解,首 要的工作应是对文本在结的文体,除标题外,还有‘’副标题”:它是对正题构上作详细的分析, 因各段在文本中的位置,的补充,但对于新闻类文体,标题有单行,双及一些特定的语句的顺序和 关系,是理解文本行,多行即分引题(揭示事件的意义、交代形的重要的角色。文本理解是自然语 言理解中式、背景、气氛),正题(也称主题,最主要的事最重要和最难处理的工作,但是自然语 言理解实或思想的概括与说明),副题(它主要指明事的研究最终要达到文本级水平。促使对文本 实、结果及主题的来源或依据,以及对它们的理解的直接原因是信息抽取和机器翻译。如补充)。 在机器翻译中,句子本身的歧义、前后指代、词国内有人抽样统计,国内中文期刊自然科语的省略 ,这些必须要用上下文的环境,才能·学论文的标题与文章的主题的基本符合率高解决。近些年来 ,随着信息的爆炸性产生,为达99%,这说明标题与文章的主题密切烟关。社会所迫切需要的信 息检索、数据抽取、文本2.文章的开头和结尾:一般是文本的第分类技术和摘要生成等也需要文本理解级的一段和最后一段,是全文相当重要的组成部处理。.分。很多重要的线索词出现在这里,如“介文本理解描述流程如下:绍”、“结论”、“在本文中,我们的目的是”,“本 文本~物理结构生成~复合句关系确定文描述了”等。‘一般句子间关系分析~前期属性结构化树议论文在第一段开门见山,指明描述的叼 这个流程中,句子间的一部分关系,涉及象和范围,或交代写作的目的或动机,最后一到更深的语义 问题,要根据相邻分句中的属性段归纳或重中论点,或提出希望和号召。而记(谓语特征、条件等 )之间的关系确定。这要在叙文开头说明背景和事由、描述场面、介绍人语一言分析阶段,进行后处理。物或发表见解,在结尾时进行抒情,表明观点一一、一‘~.或对事物议论。可见文本的头和尾对文章的 文本结构的要素了落工公井岁立二·厂~,一J~”r’~工,J~于目J ~一‘~,“‘一~一处理也是相当重要的。 文本结构分标题、头部、体和尾部四部分,3.文本的体:在物理结构上,它由一系列 1.标题:标题同文本的主题有密切的关的自然段构成,一个自然段是构成文章的基本系。它可以直接点明主题,用形象手法间接暗单位,段之间有明显的标志,一个段落一般只 ,9·O热点传真O中文信息·CIP. 1997年第1期表达一个中心思想。在逻辑结构上,一个文本·词条信息由几个语义段(围绕着同 一主题的几个自然·词法分析和生成的信息段)组成,在此阶段,不考虑语义段。·句法分析和生成的信息上面的文本的开头、结尾、节及段的开头·语义分析的信息与结尾都是重点考虑的地方。美国学者P 二概念处理信息EBaxendale曾经进行过有关抽样统计,结果表在此阶段中,基本词词典 是分词用的,这明:反应主题的论题句,其中85%出现在段个分词能确定关联词,因为在一些句子中,关首,7%出现在段尾。联词的确定也可能产生歧义,如:“我直接回本系统己能对文本正确地识别出物理结家,就不过去了。”,该句的“不过”不是关联词,构,此文 主要针对语句间的语义关系进行分这个句子是因果关系,而不是转折关系。另析。外,该词典也是后续处理工作中的主词典【21。一一,,‘,_~~~~~‘语法关联词典,是用“汉语关联词典”改造 .基本词典和语法关联词典一、二井‘I二二丫飞立乞二竺二犷二丫汀艺二重 常甲曰~一「一’“~~~曰~而产生的,在其上增加了一些语法洁息,考虑 为了正确确定文本的结构,需要两个词到一个关联词可能联接复合句,体也可能联接典,一个是基本 词典,另一个是语法关联词典。复合句内部的分句,另外在偏正复句中,偏、正基本词词典所含的 信息是十分丰富的,它含子句的位置还可能互换,定义该词典的结构如有:下:}前句联词}前句 位置}后句连词}后句位置{次序!联接类型{语义奚夏>i----一1_______上_________一-上____1!I‘,______________j·次序:0偏句在前,正句在后。在语义逻辑上,则要首先分清各句、复台 1正句在前,偏句在后。句的语法逻辑关系,才能确定语义,进而确定 2非偏正关系。自然段的段义。 联接类型:0联接一个复句内的分句。句子之间的关系,分复句之问的关系和复 1联接复句。句内部之间的关系。 语义关系:九种语义关系之一。·设51.义……sn为简单句子,1价盯定义 ,_,t~~,复句类型。 语义分析~‘盆育泣。 一,,一I,,联合类型’ 在文本的体中已经谈到,一篇文章的结构1.并列PAR(S1,S2,……,Sn),S1,可以 这样看待:句子和复合句,无论在形式上,……,sn分别说明或描写n种事情、情况或同还是在 内在的逻辑上,它们首先构成了一个自一事件的几个方面。然段,这个自然段有它自己的段义。由 说明同2.连贯以州(Sl,发……阮),51……,一主题的位置上相邻的自然段,构成文章的 语Sn表示连续的动作或事件,一般由同一主语义段,如通常所说的“节”等。最后,文章由几支配。个语义段组成。3.递进PROG(s1,……,Sn),si在范在句、自然段、语义的物理边界的识别上,围、数量、程度、时间等方面比蜀更进一步,l一个复句 的末尾,用的是句号、问号或感叹号,(i
@麻志毅$东北大学
@姚天顺$东北大学<正> 实现文本理解,进而进行基于理解的信息抽取,是当今信息社会所迫切需要的。要实现完整的文本理 解,首要的工作应是对文本在结构上作详细的分析,因各段在文本中的位置,及一些特定的语句的 顺序和关系,是理解文本的重要的角色。文本理解是自然语言理解中最重要和最难处理的工作,但是自然语言理解1.Benjamin K. T'sou, Automated Chinese Full-text Abstraction Based on Rhetorical Structure Analysis, ICCPOL' 95
2. 姚天顺等,自然语言理解,清华大学出版社95边界的识别上,围、数量、程度、时间等方面比蜀更 进一步,l一个复句的末尾,用的是句号、问号或感叹号,(i
More reviews about the 文本理解与汉语文本结构分析