Shvoong首页 > 艺术和人文学科 > 自然语言处理的学科定位

.

自然语言处理的学科定位

Summary by : TsingHua
浏览次数 : 37  词语: 300   出版日期: 五月 25, 2005
  0. 引言采用计算机技术来研究和处理自然语言是 20世纪 40年代末期和 50年代才开始的, 50多年来,这项研究取得了长足的进展, 成为了当代语言学中一门重要的新兴学科———自然语言处理 (NaturalLanguageProcessing, 简称NLP)。在信息网络时代,自然语言处理引起了越来越多的语言学者的重视,成为了当代语言学中的“显学”。如何对自然语言处理进行正确的学科定位, 使我们认识到它在学科体系中的位置, 从而自觉地推动其发展, 是一个至关重要的问题。我们可以从自然语言处理的过程、范围以及历史三个角度———即从共时和历时两个层面———来考察它的学科定位问题。1. 自然语言处理的过程首先, 我们从自然语言处理的过程, 也就是从纵的角度来讨论这个问题。我们认为, 计算机对自然语言的研究和处理, 一般应经过如下四个方面的过程:第一, 把需要研究的问题在语言学上加以形式化, 建立语言的形式化模型, 使之能以一定的数学形式, 严密而规整地表示出来; 第二, 把这种严密而规整的数学形式表示为算法, 使之在计算上形式化; 第三, 根据算法编写计算机程序, 使之在计算机上加以实现, 建立各种实用的自然语言处理系统; 第四, 对于建立的自然语言处理系统进行评测, 使之不断地改进质量和性能, 以满足用户的要求。美国计算机科学家BillManaris在 1999年出版的《计算机进展》 (AdvancedinComputers) 第 47卷的《从人机交互的角度看自然语言处理》一文中给自然语言处理提出了如下的定义:  自然 语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型, 提出相应的方法不断地加以完善,根据模型设计各种实用系统, 并探讨这些实用系统的评测技术。BillManaris关于自然语言处理的这个定义, 比较全面地表达了计算机对自然语言的研究和处理的上述四个方面的过程。我们认同这样的定义。根据这样的定义, 我们认为, 建立自然语言处理模型需要如下不同平面的知识:(一) 声学和韵律学的知识; (二) 音位学的知识; (三 ) 形态学的知识; (四 ) 词汇学的知识;(五) 句法学的知识; (六 ) 语义学的知识; (七 )话语分析的知识; (八) 语用学的知识; (九) 外部世界的常识性知识。  当然, 关于自然语言处理所涉及的知识平面还有不同的看法, 不过, 一般而言, 大多数研究人员都认为, 这些知识至少可以分为词汇学、句法学、语义学和语用学等平面。每一个平面传达信息的方式各不相 同。下面具体说明在自然语言处理中这些知识平面的一般情况。如果要让自然语言处理系统理解并执行口头指令“Deletefilex”( “删除文件X”), 一般来说需要经过如下的处理过程:图 1. 自然语言处理系统中的知识平面 从图 1可以看出, 自然语言处理系统首先把指令“Deletefilex”在音位学平面转化成音位系列“/dili tfaileks/”, 然后在形态学平面把这个音位系列转化为语素系列“delete”“file”“x”, 接着在词汇学平面把这个语素系列转化为单词系列并标注相应的词性: (“delete”VERB) (“file”NOUN) (“x”ID),在句法学平面进行句法分析, 得到这个单词系列的句法结构, 用树形图表示, 在语义学平面得到这个句法结构的语义解释: delete-file( “x”), 在语用学平面得到这个指令的语用解释“rm ix”, 最后让计算机执行这个指令。这个例子来自美国学者Wilensky为UNIX设计的一个语音理解界面, 叫做UNIXConsultant。这个界面使用了上述第 1至第 6个平面的知识, 得到口头指令“Deletefilex”的语义解释: delete file( “x”); 然后, 使用第 8个平面的语用学知识把这个语义解释转化为计算机的指令语言“rm ix”, 让计算机执行这个指令, 这样便可以使用口头指令来指挥计算机的运行了。不同的自然语言处理系统需要的知识平面可能与UNIXConsultant不一样, 根据实际应用的不同要求, 很多系统只需要使用上述 9个平面中的部分平面的知识就行了。例如, 书面语言的机器翻译系统只需要第 3至第 7个平面的知识, 个别的机器翻译系统还需要第 8个方面的知识; 语音识别系统只需要第 1至第 5个平面的知识。上述 9个平面的知识主要涉及的是语言学知识, 所以我们认为自然语言处理原则上是一个语言学问题。但是, 这些知识是要通过计算机来实现和完成的, 需要建立数学模型, 进行算法设计和逻辑推理, 还需要心理学、哲学、逻辑学和生物学提供理论和方法, 如果要预测统计事件, 还需要统计学的知识, 如果要做语音输入和输出, 还需要使用信号处理的技术, 因此, 除了语言学之外, 自然语言处理系统还要涉及如下的知识领域:(一) 计算机科学: 提供模型表征、算法设计和计算机实现的技术; (二 ) 数学: 提供形式化的数学模型和形式化的数学方法; (三 ) 心理学: 提供人类言语行为的心理模型和理论; (四 ) 哲学:提供关于人类的思维和语言的更深层次的理论;(五) 逻辑学: 提供逻辑运算和逻辑推理的理论和方法; (六 ) 统计学: 提供基于样本数据来预测统计事件的技术; (七 ) 电子工程: 提供信息论的理论基础和语言信号处理技术; (八 ) 生物学: 提供大脑中人类语言行为机制的理论。由此可见, 自然语言处理是一个多边缘的交叉学科, 它的研究必须结合各边缘学科的知识。每个从事自然语言处理研究的人, 都应该进行更新知识的再学习, 尽量使自己成为文理兼通、博学多识的人。当然, 一个人很难精通上述各个领域的知识,但是, 至少在他自己的专业领域应该是博贯精通的内行, 对于相关的领域不是似懂非懂的外行, 这样才有可能得心应手地进行自然语言处理的研究工作。2. 自然语言处理的范围下面我们从自然语言处理的范围, 也就是从横的角度来考察它的学科定位。自然语言处理的范围涉及众多的部门, 如语音的自动识别与合成、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘, 等等。我们认为, 这些部门可以归纳为如下四个大的方向:(一) 语言学方向: 把自然语言处理作为语言学的分支来研究, 它只研究语言及语言处理与计算相关的方面, 而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论; (二 ) 数据处理方向: 把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早期的研究有术语数据库的建设、各种机器可读的电子词典的开发, 近年来则有大规模语料库的涌现; (三) 人工智能和认知科学方向:把自然语言处理作为在计算机上实现自然语言能力的学科来研究, 探索自然语言理解的智能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切; (四 ) 语言工程方向: 把自然语言处理作为面向实践的、工程化的语言软件开发来研究。这一方向的研究一般称为“人类语言技术”(HumanLanguageTechnique, 简称HLT), 或者称为“语言工程” (LanguageEngineering)。最近, 德国出版了一本叫做《计算语言学和语言技术》 (ComputerlinguistikundSprachtechnologie)的专著, 把目前自然语言处理的研究领域也分为四个方向 (Carstensen, 2004), 与我们的分法大致相同。这四个方向大致涵盖当今自然语言处理研究的内容, 更加细致地说, 自然语言处理可以进一步细分为如下 13项内容:(一) 口语输入: 语音识别、信号表征 (语音信号分析 )、鲁棒的语音识别 (RobustSpeechRecognition)、语音识别中的隐马尔可夫模型方法、语言表征理论 (语言模型 )、说话人识别、口语理解;(二) 书面语输入: 文献格式识别、光学字符识别 (印刷体及手写体 )、手写界面 (如用笔输入的计算机)、手写文字分析 (如签名验证);(三) 语言分析和理解: 小于句子单位的处理(形态分析, 形态排歧)、语法的形式化 (如上下文无关语法、词汇功能语法、功能合一语法、中心语驱动的短语结构语法 )、基于约束语法的词表(LexiconsforConstraint BasedGrammars)、计算语义学、句子建模与剖析技术、鲁棒的剖析技术(RobustParsing);(四) 语言生成: 句法生成、深层生成;(五) 口语输出技术: 合成语音生成、用于文本—语音合成的文本解释 (TextInterpretationforText to SpeechSynthesis)、口语生成 (从概念到语音) (SpokenLanguageGeneration: ConceptiontoSpeech);(六) 话语分析与对话: 话语建模 (DiscourseModeling)、对话建模、口语对话系统;(七) 文献自动处理: 文献检索、文本解释:信息抽取、本文内容的自动归纳 (如自动文摘 )、文本写作和编辑的计算机支持、工业和企业中使用的受限语言 (ControlledLanguagesinIndustryandCompany) ;(八) 多语问题的计算机处理: 机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证;(九) 多模态

More summaries about the 自然语言处理的学科定位
请给本文打分 : 1 2 3 4 5


评论

Read Free Summaries - Write and Get Paid

Summarize Human Knowledge on Shvoong. Join us!

------