吞噬小说网

吞噬小说网>语言分析方法与当代科学哲学pdf > 三语言分析方法与当代人工智能问题(第2页)

三语言分析方法与当代人工智能问题(第2页)

由于计算机在处理自然语言时,很难像人一样分析句子,因此,需要在汲取现有语言学研究成果的基础上,建立一套计算机可以“读懂”的句法规则。句法规则的确立,就是要为计算机处理自然语言提供一个确切的句法描述方式,使计算机“学会”鉴别句子中的各种成分。然而,由于自然语言的极端复杂性,这种句法规则的建立并不能使计算机百分之百正确地分析句子成分。很多在语言学中简单的成分界定问题,对于计算机来说就变得非常困难。因此,在制定句法规则的过程中,其最大特征就在于可执行性。一个机器无法执行的句法规则,哪怕其制定的再完美,也没有用。更确切地说,对于自然语言处理来说,所谓的句法平面更注重对句子结构形式化分析的实现,从而为进一步的语义理解提供一个形式化基础。

制定自然语言处理的句法规则时,由于句法平面、语义平面以及语用平面在不同语系中的优先程度不同,对于句法分解方式的具体处理也不尽相同。还是以上面提到的印欧语言与汉语的区别为例:

在印欧语言中,句法虽然在某种程度上受到语义以及语用因素的制约,但仍有较大的独立性。事实上,在西方语言学的发展过程中,语言学家们主要关注于语言的形式特征,句法在很长一段时期内都是研究重点。直到20世纪60年代以后,语言学家们才开始系统研究语义问题。这是在深刻认识到仅仅依靠句法分析无法解决语义问题之后,语言学发展的必然趋势。鉴于印欧语言句法优先的本质特征以及丰富的句法学研究成果,其在人工智能表征的形式化处理过程中比汉语具有更大优势,句法平面的划界问题也较为容易。尽管如此,印欧语言的自然语言处理要想完全脱离语义及语用因素来处理句法问题,在实践中也存在很多困难。例如,在句子分割问题上,要判断“Mr。Smithisadoctor。”是一句话还是两句话,仅仅根据句法的形式符号标记“。”作为判据,系统就会误认为这是两句话。此时,只有借助于语义知识,系统才会做出正确判断。类似问题在印欧语言的自然语言处理系统中大量存在。从句法研究向语义研究的转向充分说明,将句法平面完全割裂开来无法解决对语言意义的理解问题。

而在汉语中,虽然计算机对句法平面的划界是必要的,但三个平面之间的界限则相对比较模糊,很难明确区分开来,句法平面的界定也因此要困难得多。原因就在于“汉语的句法独立性太弱,难以建立独立于语义、语用而相对自主的句法体系”①。从上述对句子层次结构的分析中可以看出,由于汉语文本是按句连写的,并且汉语自身的特性决定了不可能用语法功能单一的标准对词类进行划分,需要掺杂各种意义标准。这就使得汉语的句法平面从一开始就和语义、语用平面纠缠在一起。对于缺乏各个层次语义知识和语境知识的计算机来说,要想将汉语的句法平面与语义、语用平面完全区分开来非常困难,甚至几乎不可能。这也是汉语自然语言处理系统在语义理解问题上举步维艰的根本所在。

从上述分析可以看出,在句法平面的划界问题上,虽然印欧语言与汉语之间存在着较大差别,但无论在哪种语言中,要想将句法平面完全割裂开来单独加以研究,进而解决自然语言的语义理解都非常困难。而分解方法恰恰是将语形平面割裂出来,逐层分解为更小的语言单位,才能实现对自然语言意义的理解。在逐层分解过程中,每一层级语形单位的界定往往需要相关的语义知识和语用知识。而这又使三个平面在每个层级都紧紧交织在一起。在实际应用系统中,即便是印欧语系,在缺乏相关语义知识和语用知识的自然语言处理系统中,其处理结果的正确率也非常低。在缺乏整体性语义知识的前提下,句法平面的划界问题成为分解方法难以克服的障碍。

(2)语义平面与语用平面的划界问题

自然语言处理的最终目的就是实现计算机对自然语言语义的正确理解。建立在分解思想基础上的自然语言处理方法认为,只要掌握了每个词的意义以及词与词之间的语法关系,就能够掌握句子的意义。也就是说,对句子意义的理解以对组成句子的每个词语的意义理解为基础。因此,在自然语言处理系统中,词义在语义理解系统中占有突出位置。一些句子中的核心词甚至直接就可以表明句子的意思。机器对词语意义的“理解”来自机器词典。机器词典描述了每个词的词法、句法、语义甚至是语用知识。如果不知道句子中每个词的相关知识,就无法对句子级别的语义进行“理解”。而一个具有多个义项的词在其所在句子中应该取哪个意思,仅仅依靠机器词典并不能完成。这是因为,义项中所蕴含的意义具有概括性和稳定性,不包括词语在特定语境中可能出现的具体的、临时的意义。并且,一个多义词中各义项所蕴含的语义之间通常也存在某种程度的交叉。在一个具体语境中,某个词的语义与该词的哪个义项最为接近,往往很难确定。无论是印欧语言还是汉语,很多情况下,都需要借助该词所在的更大范围的语境甚至语用知识,才能形成对一个多义词义项的正确选择。由此,语义平面就很难和语用平面完全割裂开来。而这也是现阶段分解方法无法跨越的瓶颈所在。可以肯定地说,几乎所有的自然语言处理系统都不能很好地完成这一工作,这也是我们在使用一些翻译软件时,翻译效果非常不理想的根本原因。

一般地讲,自然语言处理不能将语义平面孤立起来进行研究,因为语义是在语境中产生的,并通过语法形式来体现。语用平面是语义平面的延伸,在自然语言处理中引入语用因素,是为了更好处理语义问题。实际上,语用只是指明了一个阐明语义的角度问题。随着研究的不断深入,人们发现在自然语言处理中,语义平面和语用平面存在着明显的交叉现象。因为语用本身就是为研究语义服务的,所不同的是语用研究的语义是人在语言使用中产生的意义。而人对语言的使用必然又会涉及语境问题。因此,语义和语用在语境的基础上存在着相当程度的关联性。

正如K。M。Jaszczolt指出的:“语义学与语用学之间的最大区别在于,语境因素的参与程度不同。”①而“参与程度”是一个模糊概念,这意味着二者之间很难截然分开。自然语言处理想要很好地解决语义问题,就很难将语义与语用以相对分离的方式进行研究。而要实现二者的统一,只有借助整体性的语境方法。但这并不意味着对语义和语用的消解,而是将二者作为要素,与语形一起融入整体性的语境处理中。而这正是分解方法所缺失的。

3。分解方法瓶颈解决的可能途径——整体性语境构建方法的提出

从上述分析可知,分解方法是建立在形式系统之上的计算机处理人工智能表征的必然选择。多年来,自然语言处理取得的成就表明,用分解方法来处理自然语言的思想是正确的,这也是人工智能表征所取得的成就。每个学科的发展都有其历史必然性,在自然语言处理的早期阶段就谈整体性方法,是不切实际的。早期阶段的研究只有通过分解的方式,才有可能实现对自然语言的形式化处理。而今天在自然语言处理经过半个多世纪的发展,基于分解的思想方法取得丰硕研究成果而不能继续前行之际,我们就应该反思方法的变革问题了。

目前,句子层次结构和三个平面的划界,是分解方法在实现自然语言语义理解过程中所不能克服的瓶颈问题。尽管在著名的框架网络在建工程中,菲尔墨在词语的语义理解中一定程度上引入了语境描写技术,但这是一种自下而上基于分解思想的局部语境描写,很难突破单句的限制实现对更大范围语言文本的意义理解。如果仅仅针对单词级别的语义理解运用语境描写技术,而不是从自上而下的整体角度去加以构建,势必造成自然语言处理不能完成对段落或篇章级别语言文本的整体性语义理解。此外,亦很难提高需要篇章级别语境知识才能判定的单句语义理解的正确率。自然语言处理在语义处理阶段难以取得突破性进展的根本原因正在于此。因此,有必要在已有的基于分解方法的局部语境描写基础上,构建整体性的语境描写框架。

在构建整体性语境描写框架的过程中,首先应该明确的是,整体性语境构建是建立在分解基础上的语境重构。大规模数据库时代,基于统计和语形匹配搜索的计算模式,要求自然语言处理首先必须是分解的。分解是形式系统处理自然语言的必然选择,整体性语境构建方法要想在形式系统上实现,首先必须是基于分解的。可见,分解方法是整体性语境构建方法的基础,而整体性语境构建方法是分解方法的必然发展趋势,二者之间是一脉相承而非矛盾的关系。

其次,整体性语境构建方法所要解决的主要问题是,在认识到语形、语义、语用三个平面无法完全割裂开来研究的前提下,如何构建基于语境的新的表征方式来实现三个平面的统一。从上述对印欧语系以及汉语的对比分析中可知,无论是哪个平面优先的语言,最大的共同点就在于三个平面可以在语境的基础上达成一致。由此,要实现对自然语言语义的理解,必然要建立基于整体性语境的描写框架。这种整体性语境的构建不仅需要各个层次自下而上的基于词汇的语境常识知识,更需要自上而下的段落或篇章级别的语境描写框架。这就要求分解方法与整体性语境构建方法相结合,二者的互补是实现整体性语义理解的必要基础。

菲尔墨的框架网络从自下而上的分解方法角度做出了有益探索。框架网络试图用“框架”(frame)将具有共同认知结构的词语以描写的方式在场景中统一起来,突破静态语境的局限,实现对人类动态语境甚至社会语境的描写。这为整体性语境理解提供了必要的词一级的语义理解基础。然而,语境描写技术的引入并不意味着就实现了整体性语境构建方法,框架网络工程只是迈出了第一步。更重要的是,要使自然语言处理突破单句的限制,实现对段落和篇章级别的语义理解。这才是整体性语境构建方法要解决的核心问题。

常识知识工程的失败表明,要在全部自然语言范围内实现整体性语境构建方法,在较长的一段时期内还不太可能。然而,我们可以尝试在篇章结构相似度较强的特定领域突破解构主义自下而上的研究路径,实现自上而下的基于篇章语境描写的框架技术。基于篇章的语境描写框架,可以使计算机首先对整篇文章有一个整体上的语义理解,进而再结合词一级的框架语义描写对文章中句子的意义进行补充和修正。①这就实现了整体性语境构建方法与分解方法的有机融合。而这也是解决人工智能表征分解方法瓶颈的关键所在。

(二)自然语言处理的语用化发展趋势

“智能”问题是当代计算机和认知科学普遍关注的焦点之一。但当前对人类认知与智能机制方面的认识障碍,使得现阶段的研究出现某种程度的停滞,难以实现理论上的突破。由此,作为实现人与计算机之间用自然语言进行有效通信的核心技术之一,自然语言处理成为研究开发新一代智能计算机的前提和先决条件,主要解决如何在语义层面上对输入的内容进行匹配,并同时具备一定的常识知识和推理能力。这一技术同时涉及计算机科学、语言学、心理学、哲学等多门学科,只有在多学科交叉的领域范围内才有可能获得理论上的突破。尤其是在核心的语义分析及智能推理方面,自然语言处理一直深受相关哲学理论和语言学理论的影响,因此,有必要厘清其发展的关键所在,分析其发展趋势及可能带来的变革。

1。自然语言处理的发展瓶颈

自然语言处理中,传统的知识库只提供单个词语的概念意义或基于真值的形式逻辑来描写语义,这对于实现自然语言处理的智能化远远不够。在经历了语形处理阶段之后,自然语言处理迈向了语义分析阶段。从语形到语义的发展,是语形处理无法满足精确性要求的结果。在语形处理阶段,程序根据用户输入的自然语言进行关键词比对(keywordmatch),这是一种局限于字词变化以及句法结构的语形匹配技术。它对于被输入的自然语言的概念语义并无确切掌握,处理结果往往精确度不够,常常会出现大量语义不符的垃圾结果或遗漏很多语义相同而语形不同的有用结果。

有鉴于此,人们希望计算机能够通过语义分析来处理信息,从而提供更加精确、更能接近人类语义处理模式的服务。为此,必须探索人脑理解语言的机制,从认知的角度描写语言知识,重视对语言理解的认知加工过程及形式化问题。但是,因为词汇句法方面的问题长期没有得到有效解决,要实现提供人工智能推理所需的知识库并不现实。由此,自然语言处理领域中,开始倾向于面向真实语料的大规模语义知识库的构建工程,这是在经验主义基础上汲取了理性主义优点后,所形成的一种基于功能主义的方法。它为自然语言处理提供了一条现实可行的探索道路,是解决智能问题的必然选择。

但自然语言处理领域一直缺乏统一的理论基础。思维语言(Lahought,LOT)框架与认知科学框架(即概念的联结论构造)作为两种对立的指导方法,长期影响着自然语言处理的发展路径。①对于认知科学和人工智能来说,无论哪一种指导理论,都建立在计算种类、表述载体种类、表述内容种类以及心理学解释种类这四个分析层次之上。并且,这些层次之间并不相互独立,“每一层次的分析都制约着相邻层次的分析”①。建立在联结主义计算基础之上的认知科学框架,以整体论的神经科学为指导,把计算机看作建立大脑模型的手段,试图用计算机模拟神经元的相互作用,建构非概念的表述载体与内容。但由于神经科学尚处于初级阶段且应用范围相对狭窄,使其发展受到了很大制约,至今尚未形成一个有影响力的处理自然语言的模式。

而建立在符号主义计算基础之上的思维语言框架,则以哲学中的理性主义和还原论为指导,并借鉴了语言哲学的研究成果。它把计算机看作是操作思想符号的系统,试图通过句法和语义等形式表述系统来表征世界。由于冯·诺伊曼机的普遍应用及其形式表述系统与自然语言的接近性,使得以思维语言框架为代表的、建立在经典的句法语义表述理论之上的一批自然语言处理理论和技术得到了广泛发展与应用。在人工智能领域,米勒(Gee。A。Miller)主持的词网(Word)和菲尔

墨(C。Fillmore)主持的框架网络(Frame)工程最为著名,也最具代表性。二者均采用“经验主义”语义建模的研究思路,主要以构建大规模语料库为研究目标,进而支持建立在其上的人工智能程序。然而,由于二者表述载体、表述内容以及心理学解释的不同,造成它们在处理自然语言的不同应用方面都各有优劣,但非常具有互补性。它们为预测未来自然语言处理的发展趋势提供了基础。从词网和框架网络等大型语义知识库工程中可以看出,现阶段自然语言处理领域的问题集中表现为:

首先,对自然语言的处理一直无法突破单句的界限,进而阻碍了对段落理解和语篇理解的研究。主要表现在对词和单句的分析虽然涉及了语境和语用,但无法将这些方法扩展到对段落和篇章所进行的语义分析中,这是语义分析阶段瓶颈难以突破的关键所在。

其次,同句法范畴比起来,语义范畴一直都不太容易形成比较统一的意见,有其相对性的一面。“层级分类结构”(hierarchy)的适用范围、人类认知的多角度性及其造成的层级分类的主观性,导致了语义概念的不确定性、语义知识的相对性以及语义范畴的模糊性。

最后,目前语义知识库记录的内容以静态语义关系知识为主,而对于基于语义关系约束的形式变换规则知识却研究甚少,这使得自然语言处理在动态交互过程中很难发挥应有的作用。

因此,厘清以上问题产生的原因,是发展自然语言处理所需的下一代大型语义知识库迫切需要解决的首要前提。

2。造成自然语言处理瓶颈的原因分析

社会的信息化进程对计算机智能化提出了强烈要求。然而,自然语言处理作为计算机智能的核心技术,其发展速度相当缓慢,至今尚未取得重大突破。要解决存在于自然语言处理中的上述问题,必然要分析造成这些问题的瓶颈所在,进而才有可能着手解决问题。我们认为,造成自然语言处理发展缓慢的原因主要有以下几点:

(1)自然语言处理的前提假设决定了自然语言处理瓶颈出现的必然性。对于自然语言处理,无论语言学界还是计算机界,都建立在以下假设之上:人类对语言的分析和理解是一个层次化的过程,自然语言在人脑的输入和输出是一个解构和构造的过程,并且,在这个过程中,语言的词汇可以被分离出来加以专门研究。这是一种建立在还原论基础上的前提假设。

热门小说推荐

最新标签