一、自然语言处理的一般程式自然语言处理(naturallanguageprocessin g,简称为NLP)就是利用电子计算机对人类特有的书面形式和口头形式的自然语言的信息进行 各种类型处理和加工的技术,这种技术现在已经形成一门专门的边缘性交叉学科,它涉及语言学、 数学和计算机科学,横跨文科、理科和工科三大知识领域。自然语言处理的目的在于建立各种自然 语言处理系统,如机器翻译系统、自然语言理解系统、情报自动检索系统、电子词典和术语数据库 、计算机辅助教学系统、语音自动识别系统、语音自动合成系统、文字自动识别系统等。眼1演广 义的自然语言处理包括自然语言的识别、自然语言的理解和自然语言的生成三大部分。作为言语行 为的参与者,计算机要接收对方的话语,理解之后做出回应。但是计算机只是一个机器,它只能识 别机器语言。机器语言是一套比较严密的规则系统,它的语言形式和意义内容之间的关系是一一对 应的,一组符号只表示惟一的一个意义,一个意义也必须用惟一的一组符号来表示。机器语言中的 每个“词”都可以按照“0”和“1”的个数及其位置在机器语言的“词典”中找到惟一的一个与 之相对应的意义。但是自然语言具有“任意性、层次性、非单元性、离散性、递归性、随机性、冗 余性、模糊性”八大特性,眼2演而且自然语言中形式与意义、语言与逻辑等也是不一致的,因此 ,为了使计算机能识别自然语言,必须对自然语言进行合理细致地分析并加以形式化。冯志伟认为 计算机对自然语言的研究和处理应当经过如下四个过程:第一,从语言学的角度提出自然语言处理 的问题和理论(linguisticproblem)。第二,把需要研究的语言学问题加以形 式化(linguis-ticformalism),是只能以一定的数学形式或者接近于数学 的形式,严密而规整地表示出来。第三,就是把这种严密而规整的数学形式表示为算法(algo rithm),使之在计算上形式化(computationalformal-ism)。第 四,就是根据算法编写计算机程序,使之在计算机上加以实现(computerimpleme ntation)。眼3演以上四个步骤中,第一步是最重要的,自然语言处理的最大困难也在于 此。而第一步又是建立在人对自然语言的理解的基础上的,因此,自然语言处理中首要的问题就是 解决人是如何理解自然语言的,这涉及到认知科学和语言学。自然语言处理涉及到的主要是人、自 然语言和计算机,那么自然语言处理的研究就可以从这三个方面同时展开:一是充分详尽地分析言 语行为中人对自然语言的理解问题;二是在合理的语言理论指导下,力求对自然语言进行科学细致 地形式化分析,降低计算机处理对象的复杂度;三是尽量在技术上提高计算机处理自然语言的能力 。这三者是相辅相成的。二、言语行为与自然语言分析塞尔在谈到集中研究言语行为的理由时说, 所有语言上的交流都涉及言语行为;语言交流的单位并不是常常所认为的符号、词语或句子,甚至 也不是符号、词语或句子的表征,而是在实施言语行为中产生或发生符号、词语或句子的行为。眼 4演更确切地说,在一定条件下产生或发生的一个句子表征的行为就是一种言语行为,各种各样的 言语行为就是语言交流的基本或最小单位。塞尔说,语言理论是行为理论的一部分,因为说话是一 种受规则支配的行为。他还认为,研究言语行为的合适的方法就是研究语言,眼5演但作为语言哲 学领域的日常语言学派的言语行为理论,与形式语言学派对语言的研究是截然不同的。言语行为理 论研究的重点注定是使用中的自然语言而不是纯语言。自然语言处理首先是分析自然语言的理解问 题,并对此做出描写。在这方面出现了许多从句法、语义和概念角度分析和描述语言的理论。比较 突出的有乔姆斯基(N.Chomsky)的转换生成语法,伍兹(Woods)的扩充转移网络 “ATN”(AugmentedTransitionNetwork),美国数理逻辑学家蒙 塔古(R.Montague)的蒙塔古语法“MG”(MontagueGrammar),菲 尔摩(C.Fillmore)创立的系统的格语法理论。另外,还有范畴语法“CG”(Cat egoryGrammar)、从属关系语法(grammairededependance) 、系统语法(systemicgrammar)、词汇功能语法“LFG”(LexicalF unctionalGrammar)、功能合一语法(functionalunificat iongram-mar)、广义短语结构语法“GPSG”(generalizedphra sestructuregrammar)、中心语驱动的短语结构语法“HPSG”(head -drivenphrasestructuregrammar)、树邻接语法“TAG”(t reeadjoininggrammar)、优选语义学(preferencesemant ics)、解释语义学(interpretativesemantics)、生成语义学(g enerativesemantics)、话语表现理论(discourserep-res entationtheory)、概念从属理论“CD”(conceptualde-pen dencytheory)、情景语义学(situationsemantics)、语义网络 理论(semanticnetwork)、概念层次网络理论“HNC”(hierarchi calnetworkofconcepts)、语料库语言学(corpuslinguist ics)等分析和描述自然语言的理论。以上理论都只是从形式描写的角度来分析自然语言,而且 描写的大多是句法。虽然有一些理论也谈到了语义的问题,认为理解语义并不一定需要有合理的句 法结构,但是单纯地从语义方面着手对自然语言进行分析和描写也是片面的、行不通的,因为一旦 不承认语义的物质载体,自然语言的分析就流于空谈了。也有些是句法-语义结合的方式,但这是 一种句法决定语义的分析和描写,没有考虑到语境对语义、语义与句法的相互间的复杂关系和作用 。虽也有理论从情景方面进行研究,但分析的只是话语发生时的具体语境和话语所描述的语境,而 忽略了人的认知过程中内在的固化了的语境。也有理论从人的认知方面进行句法分析,但从言语行 为的角度来看,这种所谓的认知方面的自然语言分析也只是一种单方面的、固定的理论模式,没有 将人的认知纳入到人的实际的言语行为的交际中加以研究,从而只是将人的认知问题进行了一定程 度的静态分析和描写。事实上,在言语行为中,人们通常以两种方式来使用语言,“一种是主要依 赖于语境和会话双方的共同知识背景,语言中的字句只起‘画龙点睛’的作用,在这种方式里,语 法往往得不到尊重,语义甚至可以逆语法规则而行,‘救火’和‘恢复疲劳’就是这种语言的典型 例子。另一种方式中,语境和双方的共同知识背景退居次要地位,信息主要依靠具有比较严格语法 结构的字句流来传达,当然,两者之间的界限不是截然的,人们在使用语言的时候,两种方式有时 是混合交织在一起的。”眼6演因此,虽然以上这些理论在自然语言的计算机处理方面取得了一些 成功,但由于这些理论主流都是静态的句法-语义分析,都是基于规则之上的分析模型,而在串行 的计算机上,建造一个包含大量语法规则、复杂推理机制和把语言学的各种事实和理解语言所需的 广泛的背景知识用规则的形式充分地表达出来的自然语言处理系统,几乎是不可能的,因此就注定 这些基于规则的自然语言分析和描写的理论只能在非常有限的自然语言处理范围内取得某种程度的 成功,而不适宜推广。基于规则的受限的语言分析理论只能适于受限的范围。为了让计算机具有丰 富的背景知识和真实的文本数据,突破语言的受限性,语料库语言学应运而生了。语料库语言学研 究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法-语义分析,以及具有上 述功能的语料库在语言定量分析、词典编撰、作品风格分析、自然语言理解和机器翻译等领域中的 应用。语料库方法有两个特点,一是依赖于语言结构的统计特征而不是完全依赖于逻辑规则,二是 其处理对象是非受限领域的语言。眼7演但是基于统计的语料库语言学一般也是根据经过统计得到 的知识,对句子进行词法分析,然后进行短语合并、句法分析和语义分析,整个过程分阶段串行处 理。但是由于自然语言的模糊性、灵活性和非精确性等特点,使得串行符号处理根本不能对自然语 言进行全方位的、多维度的网络化的综合处理,因而串行处理并不能真实地反映人的认知处理方式 。前面我们谈到过自然语言处理的三个策略是相互促进的,其中之一就有计算机的技术方面。由于 以上诸问题,计算机就开始由串行处理过渡到并行处理了。20世纪80年代中期出现了一种模拟 人脑工作机制的人工神经网络模型(artificialneuralnetworks)。该 模型由许多相同或相似的神经元(neuron)通过广泛的连接构成一种网状结构,采用的是分 布式并行处理方式。神经网络采用分布式存贮方法表示知识,通过训练学习,将语言中的句法和语 义知识隐含在神经元和连接权值之中,对知识的处理是采用并行处理的方式,不像传统的方法那样 对一条一条的规则进行匹配和推理,它允许同时处理大量的信息,能完成复杂的非线性映射,这是 一种自适应的学习过程,使之表现出思维的能力,在某种程度上与人类大脑的思维机制有共同之处 。这种基于神经网络的方法,不需要编写大量的产生式规则,只要提供给系统足够的语料,通过神 经网络的自学习功能,就能掌握隐藏在语言中的许多微妙的难以用规则表达的知识,因而形成了神经网络自然语言处理学或称为联结主义自然语言处理学。眼8演按照言语行为理论,任何言语行为都由言语行为的交流者和话语构成,在计算机的自然语言处理过程中,并非只有惟一的计算机和处理对象,还存在计算机的言语行为的交流者———处理对象的输入者,即人;而且计算机也不是单
More summaries about the 言语行为与自然语言处理