语言网络的语言学理论及其研究方法.docx
- 文档编号:25506917
- 上传时间:2023-06-09
- 格式:DOCX
- 页数:11
- 大小:25.93KB
语言网络的语言学理论及其研究方法.docx
《语言网络的语言学理论及其研究方法.docx》由会员分享,可在线阅读,更多相关《语言网络的语言学理论及其研究方法.docx(11页珍藏版)》请在冰豆网上搜索。
语言网络的语言学理论及其研究方法
语言网络的语言学理论及其研究方法
、引言
语言是一种复杂动态系统。
它在各个层级表现出高度的复杂网络结构。
语言系统的复杂性体现在各级语言符号相互联系和演变的过程中。
网络是依靠节点与边(即节点关系)两个要素构造的图示。
目前国内以字、词、词组等各类语言单位为节点构造汉语网络的研究并不鲜见,如:
Peng等根据词内汉字间的关系构造了以汉字为节点的普通话和粤语网络;韦洛霞等根据词同现构造了以词为单位的汉语网络;刘海涛以词为单位构造的汉语依存句法网络;刘知远等以词为单位构造汉语同现网络。
这些研究的共性是证明各级语言单位为节点构造的语言网络均具备同其他复杂网络一样的小世界和无标度的宏观统计特征。
刘海涛通过真实文本论元结构关系构建汉语动态语义网络,发现语义网络虽然也具备小世界和无标度特征,但与句法网络相关性信息上有明显差异。
陈芯莹关注到句法网中虚词的、了、在的中心性作用,提出节点的个性是网络结构的根源。
上述研究充分考虑语言符号是多层级系统的特性,利用网络技术从不同层级构建网络,分析不同语言单位构成的网络的特性和共性,充分证明了语言网络研究的可行性与前景。
与此同时,我们更应强调:
把语言视为一个复杂系统,并借助网络的方法对该复杂系统进行分析具备从语言学内部到语言学外部多学科的理论支持。
本文试图从语言网络的语言学理论、认知科学对人类语言机能的实验性研究成果以及心理学学习理论的发展等角度对语言网络的理论支撑进行探讨。
这些学科对人类语言网络的特性研究各有侧重,有神经生理的、有心理、认知的,有结构、功能的,但都体现了网络在语言发展中的基础结构作用。
从语言学内部来看,语言研究的不断深入导致了对内化语言的关注。
1916年,索绪尔(Sau-ssure,F.D.)《普通语言学教程》的问世把语言学从语文学中区别出来,开创了现代语言学研究。
以此为开端,从20世纪初叶开始,语言学经历了从结构主义
(Saussure,1916)到描写主义(Bloomfield,1933)再到转换-生成语法(Chomsky,1957)的转变。
结构主义使得语言研究从历时层面转向共时层面,语言被作为一个由语言单位(符号)组成的结构系统进行分析;描写主义首创直接成分(im-mediateconstituents)分析法敏锐观察到了语言线条性所掩盖的层次性;转换-生成语法从心理层面对语言进行解释性研究,认为人类在进化中已经具备了习得语言的深层结构。
深层结构暗示了人类语言能力的存在,无论学习哪种语言,句子形成的过程都是把深层结构转变为表面顺序的转换-生成过程。
乔姆斯基注意到人脑内化的语言能力,并认为对语言能力的研究应归入人脑机制的实验科学。
到20世纪中后期,针对生成语法采用数学方法来形式化语言带来的诸多问题,以乔治雷可夫(Lakoff,G.)、马克詹森(Johnson,M.)与朗奴兰盖克(Langacker,R.)为代表的语言学家开始从人的认知心理过程出发来研究语言的结构、意义和应用。
他们提出语言的创建、学习及运用,从基本上都必须能够透过人类的认知而加以解释,因为认知能力是人类知识的根本。
语言学的发展历程表明语言学家对语言的研究步步深入,随着各个学科发展的不断融合、研究技术设备的进步,语言学研究也逐渐走向多元交叉的研究领域。
语言逐渐成为一种具有普遍价值的研究对象。
同时,语言作为人类智慧的缩影吸引了语言学之外的计算机专家、心理学家、神经生理学家、人类学家投入到与其相关的研究中,语言的系统性和复杂性逐渐得到体现,网络分析的方式逐渐得到重视。
客观世界和人类本身是一切科学研究的终极对象。
而语言系统作为大脑功能的一个组成,其运作原理吸引了语言学家、心理学家、生物学家的持续关注。
神经认知语言学作为语言学的分支把关系网络视为知识表示系统,并尝试揭示语言结构的抽象关系网络与承载语言知识的大脑神经网络以及两者之间的关系。
受神经认知语言学的启发,我们认为,既然大脑是以神经网络为基础的客观存在,那么就有理由相信语言功能的实现是语言网络关系实现的过程。
这个动态过程涉及大脑中知识的表示、储存与合乎文法的语言表达,这其中蕴含了人脑操作的原理,包括人认识世界和认识自身的原理。
这个复杂的实现过程为我们提供了广阔的研究空间。
作为系统阐述语言网络理论的两大语言学理论:
兰姆(Lamb)的神经认知语言学和赫德森(Hudson)的词语法为我们用网络技术分析语言材料提供了坚实的理论基础。
二、语言网络的语言学理论
(一)神经认知语言学
美国语言学家兰姆认为语言学理论应不悖于大脑神经事实,在20世纪60年代以层次语法首次实现了语言是一种关系网络的思想。
70年代初,层次的内部关系已经明确,兰姆开始正视研究关系网络理论的认知意义,将其理论命名为认知层次语言学(CognitiveStratificationalLinguis-tics)。
到了80年代,兰姆开始进一步探讨有关语言处理以及语言和思维的关系,比较明确地对语言理解、语言习得、语言进化等语言过程做出神经认知理论的解释和模拟。
为了强调语言认知和大脑神经网络密不可分的关系,同时和其他新诞生的认知语法相区别,兰姆将其理论正式命名为神经认知语言学。
《大脑路径》和《语言与现实》对神经认知语言学的基本原则和主要特征进行了较为全面的阐述。
兰姆的神经认知语言学理论认为,语言是个信息系统,语言信息可以有两种载体,一种是外部的声音、文字等,另一种是内部的大脑神经网络。
前者称作语言现象,后者称作语言系统。
现象是系统的输入、输出,系统加工输入、输出并输出现象。
解释现象就是说明系统如何处理信息的输入、输出。
他把语言系统和语言现象区别开来,将内化的语言系统看作研究对象。
神经认知语言学理论认为语言系统的物质载体是大脑神经网络。
语言信息就寄存于大脑神经网络的连通关系之中,语言信息的处理就是关系网络的激活过程。
语言系统是关系网络,因此不可能有包括符号、规则在内的实体(如小句、短语、词、形位等),也没有这些实体的操作。
所谓的实体符号及规则在语言系统中也都必须是关系。
兰姆只对语言关系网络进行概括性的表述,只描述其内部关系和解释其激活延伸操作。
他根据神经元传递的方式和传递所需时间的不同,用逻辑关系符与(and)或(or)有序(order)无序(unorder)零符号等,建立了一个有神经生理基础、可用逻辑关系定义的语言模式。
这些关系既符合生物神经的操作模式,也能描述语言系统层级
间的组合、聚合、体现关系
以英语句子somelittlegirlslikeSpanish①为例来说明该语言现象在语言系统中的活性触发过程。
首先,活性(activation)触发句法结构顶端的句子标志CL,继而向下触发Δ,Δ表示逻辑关系符与,图示中它有两个向下的分支这意味着要进行有序+与选择,活性按照顺序沿着左分支向下朝NP移动,从此开始进入littlee后在该图中向上进行反馈,但是整个语言系统处理中活性会经由some继续向下传递,可能到达语素层面或语音层面。
在该片段中,当NP得到some的反馈后,活性继续按照有序+与的关系沿着NP的右分支进行传递,进入loop得到little的反馈,以此类推,活性经过3个loop反馈后得到完整的NP结构,NP把活性和反馈向上传递给CL,然后进入VP短语的活性传递。
需要指出,图示中有一个符号︺表示倒向关系无序+或,这意味着NP可以表达两个结构,既选择反馈到CL也可以选择反馈到VP。
图1作为一个神经认知语言学句法处理片段的图示表达了兰姆对语言系统几类关系处理的基本思想,但是这个图示解释起来已经足够复杂了。
而神经认知语言学理论强调处理线性语篇的语言系统是多维关系网络模式,多维反映神经网络空间复杂性,模拟人脑大规模并行处理的能力,和信息加工理论符号主义分时串行处理有重大的差别。
多维指语言系统中若干层次的连通,从大脑内部看至少包含概念、语法、语音功能区域,这些区域可以看作语言系统中的子系统;从外部语言现象分析,就是概念、语法、语义各自的组合结构。
另外,大脑也并非单独贮存各具体语篇。
处理线性语篇的语言系统是一个多维的关系网络系统,语篇及其结构成分以连通关系存在于大脑神经网络之中。
【图1】
由此可见,兰姆神经语言学理论最为重要的研究对象并非语言现象本身,而是大脑神经所承载的语言关系系统。
这个系统的关系类型虽不多,但由句法结构片段活性传递的操作来看,神经认知语言学多维关系网络的操作也足够复杂。
所以在认可兰姆语言网络观的同时,我们也发现神经认知语言学与今天以统计为主流的语言学研究相比显现出一定缺陷。
首先,兰姆对其研究对象(语言系统)的界定导致他研究的语言关系网络是无实体只含关系的网络,仅通过定义关系的组合来确定词义。
这对于以语言材料为基础的语言研
究来说显得让人无从下手。
其次,在对语言现象进行句法分析时采用短语结构句法理论,短句结构句法分析中包含大量文本并未直接体现的非终极符号,这些结构推导的中间产品是否真实存在于语言思维过程中是无法得到验证的。
这些问题阻碍了神经认知语言学理论与语言现象分析的集合,难以分析大规模的语料,所以降低了理论的操作性。
(二)词语法
另一种把语言视为网络的语言学理论就是词语法。
词语法早期吸取了依存语法句法是建立在词汇而不是短语的基础上的思想和系统功能语法实现/表示不同于作用的观点,其语法理论基础是句法层面的依存关系和形态层面对这种关系的实现/表示。
同时,词语法包含了两条重要的来自于美国的创新。
一个是转换生成语法强调的一致、明确的语法应具有生成的能力;第二个也是最普遍和重要的观念是与层次语法的共识语言是一个网络。
词语法作为一种语言理论,它的主要目标是描述和解释语言结构,这与大多数语言理论的目标一致;但它采用依存关系作为理论基础以及将语言与概念知识统一为网络的观点,使得它与其他语言理论相比有更鲜明的特点。
词语法讨论了语言的元素是什么,它们之间是怎么联系的。
与大多数语言理论一样,词语法试图解释的是乔姆斯基(Chomsky)所说的内部语言而不是外部语言。
外部语言是外在的,它与个体的内部语言是相对的,内部语言指的是人的大脑所掌握了的知识。
词语法的基本主张也是它整个理论构架的基础,即网络与缺省传承逻辑。
其中网络的构建基础,即isa层级分类体系,也是整个理论框架的基础。
词语法认为在一个网络中存在着三种基本要素:
简单的逻辑关系isa(是);有关联的概念;无关联的概念。
在这三个基本要素中,isa关系发挥了比较特别的作用。
因为每一个概念,无论是有关系的还是没有关系的,都是isa层级中的一部分,它总是向上与更普遍的概念相联系,向下与更具体的概念相联系的。
例如,补语isa从属成分,而对象isa补语,所以这一网络中从属成分在补语之上,补语又在对象之上。
此外,isa还包含了简单的推理逻辑,即词语法中的另一基本主张缺省传承。
语言分析的目的是尽可能地把通用的认知机制与语言分析的心理现实性结合起来。
词语法假定的机制是日常的推理和缺省传承。
其他的语言理论也假定了同样的基本原则。
词语法的句法部分使用的是依存结构。
所有的依存关系都只是基于词的,而短语关系是隐含在依存结构当中的。
这也是词语法理论命名的缘由之一。
当把词语法的原则应用于一个句子的语义时,它们揭示的也是一个比句子句法结构复杂得多的结构。
一个词的意义需要由它与其他多个概念的关系框架来定义,并且其他概念也需要用同样的方法来定义。
图2是一个简单的例子。
这个例子给出了句子Thedoghidboneforae阐明的是同一个属性;1d代表的是现在时,而1c代表的是过去时。
hiding分解成了一个动作和一个结果invisible(隐形)。
hiding这一动作是不可持续的,能够持续的是hiding的结果invisible。
所以对于语义结构来说区分hiding和hiding的结果是非常重要的。
词语法还给其他一些语义问题提供了解决方法;例如,它包括了定量描述,一套设置理论,还有动作区分方法用来区别分散的动作和联合动作,这些讨论都只是这一理论具有巨大潜力的暗示。
词语法下最终语言的语义分析是与使用者的认知结构密不可分的。
这也就是说词语法下的语义分析更像是一种语言的心理形式分析,就这点来看,词语法应该可以普遍适用于各种类型的语言。
与神经认知语言学相比,词语法显然更注重对语言现象的描述,它采用依存关系作为语言现象分析的基础,这便具备了把语言现象描述为一种网络的操作性,这种基本方法值得我们在语言分析中充分借鉴。
但是从图2来看,词语法非常强调语言现象和认知模式的结合,在大量句子分析中这仍显得相当复杂。
【图2】
以上基于网络的理论试图构建出一套模拟语言能力的逻辑系统,具有较强的逻辑推理模式,也体现出传统语言研究的弱点:
过分基于规则,用于大规模数据分析时操作性差。
但这些困难并未动摇语言网络的观念,来自跨学科的研究成果尤其是计算机分析技术的进步,也反作用于语言学内部改进语言研究的方式。
三、语言网络观的理论与方法论支撑
(一)认知科学
语言是人脑机能的重要体现。
针对以语言为代表的人脑智能综合研究集结了哲学、心理学、人工智能、神经科学、语言学和人类学多种学科的力量,也促进了认知科学(CognitiveScience)的兴起。
认知科学最初始于20世纪50年代中期,一些学科对人类智能复杂表示和计算程序的探索,20世纪70年代,认知科学学会成立和认知科学杂志问世正式标志认知科学兴起。
认知主要指人在特定环境中以特定目标为方向处理信息的过程。
而语言认知就是人在特定语言环境中有目的地处理语言信息的过程,语言信息处理过程包括生成和理解话语内容的全部过程,也包括学习的过程。
认知科学一方面促进语言研究从为语言而研究发展到语言科学的研究,为语言研究找到科学定位;另一方面其研究成果也为语言网络的生理基础提供了事实依据。
解剖学证明了大脑的物质构成,明确了人类语言机能的生理基础。
对个人而言,语言存在于以神经细胞(神经元)为基本单位的神经网络结构中。
神经细胞包含大量的树突(denderite)和轴突(axons)构成了更宏观的大脑皮层(灰质)。
大脑皮层可分为六层,每层分布不同功能的神经细胞。
神经细胞的树突用来接受刺激,轴突用来传导神经冲动。
大脑皮层包裹的部分(白质)由轴突纤维构成,这些轴突纤维连接不同脑区大脑皮层,负责传递神经信号。
白质为皮质细胞的远程连接提供了显示的和潜在的链接。
人类的学习过程就是相距较远的皮质细胞在白质中建立连接的过程,即潜在的连接被激活和启用。
借助现代脑成像技术,脑神经科学大量的临床观察、测试证明,语言的加工处理(生成、理解)正是在神经细胞发生连通关系构成的神经网络中进行的。
神经细胞以传递脑脉冲的方式使得神经网络中神经细胞状态(兴奋、抑制)产生变化,信息得以传递。
在揭示脑结构和脑神经基本工作方式的同时,神经科学家也充分认识到了构建人脑结构网络的重要性,并正式提出人脑连接组①。
人脑连接组的研究应用现代脑成像技术和复杂网络理论揭示了隐藏在人脑结构和功能网络中的很多重要的拓扑属性(比如,小世界特性、模块化结构、核心脑区等),并试图在大脑功能活动的静态拓扑性质基础上,探索更小的时间尺度上脑功能网络的动态发
展。
神经科学这一发展方向与目前语言网络研究由静态网络深入到动态网络的趋势产生了契合。
(二)心理学心理学对认知科学的形成和发展有重要的作用。
心理学中学习理论对语言网络的心理现实早有关注。
西方学习理论可以简单地划分为联结主义理论与认知主义理论。
学习的联结主义(Con-nectionism)理论对当今心理学、语言学的发展都产生了一定影响。
联结主义一度成为行为主义的代名词。
20世纪初的联结理源于动物实验,把学习看成刺激-反应的联结。
这种观点被后来的认知主义观点取代,在认知主义看来,学习的联结应该是在个体头脑内部发生的。
信息加工理论和联结主义理论是认知心理学先后出现的两种理论研究范式。
信息加工理论20世纪50年代兴起,它基于心理活动-电脑的隐喻,将复杂的心理过程简化为信息加工过程。
而20世纪80年代初,源于行为主义的联结观再度发展为新的联结主义(亦称网络模型)。
其指导性启示和主要灵感来自大脑或神经系统,它把认知看成是网络的整体活动。
网络是个动态的系统,它由类似于神经元的基本单元和节点构成,每个单元都有不同的活性,外部的输入、其他单元的活性传递和随着时间的衰减,都会使一个单元的静息活性发生动态的改变。
联结主义赋予网络以核心性的地位,采纳分布表征和并行加工理论,强调的是网络的并行分布加工(paralleldistributedprocessing),注重的是网络加工的数学基础,这极大丰富了联结主义的内涵。
20世纪80年代以来,网络取向的联结主义取代了符号取向的认知主义,成为现代认知心理学的理论基础。
李平把联结主义应用于语言习得研究,认为并行分布加工所体现的知识分布表征(distributedrepresentation)和学习分布表征的特点与传统的认知理论相比,有较强的生物可信度(biologicalplausibility)。
单元、激活、抑制,以及联结强度(即通过改变单元之间的权值实现调节单元与单元之间的关系)等概念,都能在人脑中找到直接的对应。
语言习得不应是长期被认同的学习规则的过程,而是通过对前类概念的描述达到对后类概念的解释。
语言习得研究中联结主义的观念与概念不仅在人脑的神经结构功能中找到直接的对应,在以数据为主要研究对象、统计为主要研究方法的语言研究中也存
在直接的对应,单元连接权重等概念都在语言数据中体现。
这些语言数据是人类语言的主要产品,以大量数据形成的语料库是人类知识学习的主要资源。
如何对语料库中的数据进行分析、加工、解释、利用是语言学发展的关键。
(三)语料库与语言网络
语料库方法是语言研究的重要方法,它以真实的数据为研究对象,从宏观角度对大量的语言事实进行分析从中总结规律。
大规模语料库是语言学与现代科技结合的重要标志,它越来越成为计算语言学和自然语言处理发展的必要物质基础。
在全球大规模兴建各种语料库的今天,可以说语料库已经成为了重要的文化战略资源。
而在通常情况下,经过加工的真实语言材料才能成为有用的语言分析资源。
从数学角度来看,语料库被定义为一个包含抽象有序元素的集合,而集合中的元素需经由特定研究目的决定的语料库操作进行分析和分离(例如,搭配的统计按词单位对语料进行处理)。
语料库操作具体来看就是对语料进行的加工和标注,经过处理的语料库也可以被称为树库(treebank)。
树库可定义为以句子的语言成分为节点所构成的树形状的语料的集合,而其中的语言成分涵盖了词法级到句法级再到语义和语用级,语料分析的上下文环境从句内发展到段落、篇章。
语言学家对语料库进行分析研发的目的之一是为了探索隐藏在各级语言成分之后的结构关系。
表1为依存句法分析的语料库片段。
句子经过分词、词性标注后,按照依存句法进行关系标注,这样的语料库成为进一步语言研究的材料。
但受语料库分析手段的限制,以往的语料库分析容易忽视单独文本层次之上的结构形式联系。
文本来源于规定和约定俗成这种规定和约定俗成通过高于文本的关系形成,包含于同一个语料库中跨文本指代(reference)。
分析不能受限于独立的文本,需要对跨文本的关系进行分析。
需要对比既定文本的个别性和其他同类文本中的典型性和语言使用的普遍标准。
【表1】
语言网络为发掘语料库中高于文本层次的语言结构提供了有效的手段。
如图3所示,语言网络的分析方式打破了句子的界限。
语料库中包含详尽的句内词的二元依存关系,利用这些二元关系构建的网络整合了相同词形的二元关系,构成了语料库整体文本跨句词的网络关系连接。
语料库中的词例子在句法分析中受限于句内关系仅能形成例子有,例子个的二元依存连接,当对整个语料库进行网络分析操作后,例子在其他句子中的二元依存关系被整合到以例子为中心的网络中,由此形成一个词间关系的网络结构数据库。
可以说网络的分析方法在保留语言线性关系分析(句法分析)的同时超越了以句子为单位的线性结构的限制,网络的视角像通过一架望远镜为从宏观角度观察特定语言单位的研究提供了全局的语境。
在网络分析中,语料库成为了一个有机的整体。
【图3】
四、结语:
从古老的语言哲学到崭新的网络科学
语言从生理上看是人脑的机能,从内容上看则包含了人类对外部世界的反馈和描述。
这就不得不谈到语言哲学。
哲学是最古老的探寻人类和世界真理的学科,哲学家要通过客观的逻辑实证实现对世界本质的理解。
语言哲学作为现代西方哲学理论影响最大、成果最为卓着的一个哲学流派,不断提出与语言相关的命题,让世人意识到语言对于人类认识世界本质的重要。
语言给出存在;语言是存在的家园海德格尔;语言伸展多远,现实就伸展多远维特根斯坦。
透过哲学的启发,语言是构建人类认知与客观世界的桥梁。
语言的某些特性受制于人类的生理特性,同时语言也像一面镜子反映人类对外部世界的认知。
既然自然界中存在的大量复杂系统都可以通过形形色色的网络加以描述,这样的世界现实也自然会投射到语言现实之中。
由图论发展而来的网络科学和复杂网络技术为我们人类描述了从技术到生物甚至社会各类开放复杂系统的骨架,也为研究这些客观事物的拓扑结构和动力学特性提供了有力工具。
复杂网络技术的发展同样为语言学家从网络观进行语言分析提供了更为成熟、方便的途径。
许多物理学家、数学家、网络研究者参与到语言网络的研究中来就是语言学与其他学科交融的又一证明。
这些研究经历和成果带给我们的启示是:
语言研究,首先要关注语言的生理基础。
语言是人脑的功能,对语言的解释应具有心理现实性,符合神经生理基础。
这要求语言学理论要有神经网络的观念。
要结合学习理论中的重要发现:
学习就是对联结权重的适应性变化,语言也是动态发展的。
其次,语言是符合逻辑的,是可推导、可操作、可计算的。
所以对语言的解释在注重其生物操作形式的基础上要采取科学的分析方法。
第三,正像统计物理发现了小世界、无标度特征在现实网络拓扑结构中的普适性,我们也期待通过复杂网络技术、统计方法和语料库方法的结合,发现语言系统演化规则的一般性和特殊性,推动语言系统复杂性的研究。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 网络 语言学 理论 及其 研究 方法