第二节 言语的产生机制
言语产生(speech production)的生理过程极其复杂,是通过呼吸系统、发声系统和共鸣系统的正常言语的协调活动实现的。这些系统的功能也是人类大脑语言脑区所特有的进化表现,脑神经直接与控制运动的大脑核团相连接,并且对每块控制及参与发音的肌肉均有密集的神经相连。
一、言语器官的解剖与生理
语音就是说话的声音。声音的产生开始于呼吸,呼气时产生的气流通过声门时引起声带震动,于是就产生声音。声音在通过口腔、鼻腔等部位时,由其中的唇、舌、齿等发音器官对发音气流进行调节控制后才形成了我们听到的千变万化的语音。为便于了解发音器官的功能,人为地将发音器官分为三个部分。
(一)动力系统(呼吸系统)
发音的动力是呼吸时呼吸系统所产的气流。呼吸系统包括肺、气管、支气管、胸廓、呼吸肌群等。呼吸是依靠这些肌肉及组织的活动来进行的,呼吸方式主要包括腹式呼吸和胸式呼吸两种,腹式呼吸是由膈肌收缩引起的呼吸运动伴随腹壁的起伏。胸式呼吸是由肋间肌收缩使肋骨和胸骨运动所产生的呼吸运动。呼吸产生的气流为发音的动力,这个动力主要来源于肺。声音来源于物体的振动,人类的语言声音也不例外。发音时,发音器官的振动必须先有动力,也就是从肺部呼出的气流作为动力通过气管到达喉头,使发声器官——声带产生振动才能发出我们听到的声音。人类的语言几乎都是由这一部分发音器官提供呼出气流作为动力而产生的。但这部分发音器官在说话与单纯呼吸时的活动情况是不同的。呼吸时,吸气与呼气交替不断地进行,而言语产生的过程中,呼吸模式改为较长的呼气阶段和较短的吸气阶段。安静状态的呼吸量约为500ml,言语状态下的呼吸量为安静状态时的35%~60%。平静呼吸时,吸气和呼气时间占总呼吸时间的40%和60%;在言语状态下,吸气和呼气时间约占呼吸时间的10%和90%。在安静状态下,成人呼吸次数为12~15次/min,呼吸规律;言语状态下,腹肌肌群收缩力量的大小主要取决于言语产生时所需的肺容量、响度水平、发声长短、张力和语调(intonation)种类。
(二)振动系统(发声系统)
发声系统由喉的软骨及肌肉,主要是喉部声带组成,是发音时的主要发声体。喉是由喉软骨、韧带、喉肌及喉黏膜构成的器官。喉软骨为组成喉支架的软骨,包括甲状软骨、环状软骨、会厌软骨、杓状软骨、小角软骨、楔状软骨、籽状软骨和麦粒软骨。环状软骨呈环状,是喉软骨支架中唯一完整的软骨环,对支撑着喉腔及呼吸道的开合有重要作用。环状软骨板与环状软骨弓交界处两侧与甲状软骨下角相连,下缘与气管相连,环状软骨板上缘的小关节面与杓状软骨相连。甲状软骨是喉的最大支架软骨,呈盾状结构,声带位于甲状软骨内面和杓状软骨相连处。杓状软骨形似三棱锥,杓状软骨底与环状软骨杓关节面形成环杓关节,底面有声带突,是声带附着处,大部分喉肌附着于杓状软骨外侧的肌突处。杓状软骨非常灵活,它的活动可以直接影响到声带的位置和声门的形态。两片声带中间是一条通路,叫作声门,可以打开或闭合。解剖学结构上将声带和声门裂合称声门。声门通过各种方式改变其形式,声门开放,杓状软骨分开,声门呈倒置的“V”形,这个形态处于吸气过程,气流可自由通过声门抵达肺部。发声状态时,杓状软骨靠拢,声门闭合呈“|”形。闭合时,呼出气流经过声门可使声带产生振动。发声状态和无声状态主要通过喉部进行交替切换,需要喉内肌、喉外肌和呼吸肌的协作完成发音活动。由动力系统提供的气流经过声带所形成的声门时引起声带振动而发声。声带是喉部最重要的组成部分,是两片带状的富有弹性的韧带,形似两片薄膜,位于喉室内的两侧,是由肌肉、黏膜等组成的一对皱褶。声带的发声作用主要表现在说话时它处于振动状态,这种声带振动状态伴随着说话时发出的每一个字音。成年男性的声带有18~24mm,女性比男性声带短约三分之一,儿童的声带更短些。声带开闭的程度是可以调节的。人们可以通过控制声带的松紧变化而发出不同的声音。在发声状态之前,通过喉内肌的作用,对声带的长短、张力、质量及位置进行提前调整。在发声状态时,喉内收肌活动增强,喉外展肌活动减少,在声音振动前,双侧声带互相接近,声门处于完全关闭的状态,此时呼出气流被阻断,在声门处形成压力,气流冲开声带,解除压力,声带重新并拢,周而复始,循环往复,声带不断快速开闭,形成持续颤动,产生类似蜂鸣的声带音。声带音具有节奏性的周期波,是语音中的浊音声源。
1.正常呼吸时,声门呈三角形,气流通过时不引起声带振动。
2.声带内收声门呈松弛状关闭气流通过时声带振动发出声音。
3.声带紧闭,气流完全被阻塞,然后突然放开形成声门爆破音,常见于腭裂代偿型发音。
汉语是有声调的语言,声带和声调的高低密切相关,声调的高低就是由声带的松或紧所控制的。声带绷紧,持续颤动速度增加,声调越高;反之,声带放松,持续颤动速度降低,声音变低。
(三)共鸣系统(发音系统)
共鸣系统(resonance system)主要指声门上发音器官,主要包括咽腔、口腔、鼻腔及声道内的各部分器官,如舌、牙齿、唇、腭等。声带振动而产生的声音,经过声门上发音器官在不同部位以不同方式对发音气流进行调节后,才发出我们所听到的千变万化的语音。所以,这部分发音器官又叫发音调节器官。
咽腔、口腔、鼻腔在发音过程中起着共鸣腔的作用,由于共鸣腔的大小和形状的不同,发出的声音在音色上也不同。比如腭裂患者由于口腔、鼻腔不能分隔开,共鸣腔变大,形态也与正常不同,所以发出一种深而空的,带着浓重鼻音的“腭裂语音”。声带音产生后,首先进入喉腔和咽腔共鸣腔。舌的形状会影响喉腔和咽腔的形状,进而使声带音的共振受到影响。口腔对于语音的产生来讲是最重要的发音器官,一切复杂的发音变化全部是在口腔中进行的,其中舌是最灵活的部分,它可以自由升降,前后移动,还可以形成不同的形状,从而构成各种不同的声音。比如舌尖与上前牙内侧齿龈接触来控制发音气流就能发出/d/、/t/等辅音,舌根与软腭接触可发出/g/、/k/等辅音,因此舌运动的控制训练在语音训练中有着十分重要的作用。舌在发音时的位置、形状和活动方式是语音分类的主要依据。
口腔的前面是唇和牙齿,上齿内侧根部突出的部分叫牙龈,由牙龈向后的部分叫上腭,上腭的前部有骨面支持叫硬腭,后部由肌肉和黏膜组成叫软腭。软腭可以上下活动,软腭上抬时与咽后壁接触,使口鼻腔完全分隔开,气流只能从口腔出来,这是绝大多数汉语辅音正常发音的基础。这种软腭上抬并向后与咽后壁接触的过程叫作腭咽闭合。比如在发辅音/b/、/g/、/k/、/j/及元音/ɑ/、/i/、/u/等时,软腭就会上抬形成腭咽闭合。此外,在大张口发/ɑ/时也可见到软腭的上抬运动。软腭下降时,口腔、鼻腔通道开放,气流从鼻腔放出,这样发出的音叫鼻辅音,如/m/、/n/等,在交替发/ɑ-ɑng/过程中还可看到发/ɑng/时软腭的下降运动。
鼻腔在口腔的上部,由上腭将其与口腔分隔,鼻腔是形状固定的共鸣腔,发音气流通过鼻腔时产生共鸣(resonance)而产生鼻音。腭裂患者因口腔、鼻腔完全相通而不能分隔开,故在语音过程中,始终伴随着浓厚的鼻音和吐字不清,辅音成分完全消失,而严重影响语言交流。
通过上述介绍,我们知道声带、软腭、舌、唇、下颌等,都是能活动的器官,他们在发音活动中起着重要的作用。语音中各个字音的构成都与活动性器官的动作有关。所以了解这些器官的功能,在学习正确发音的过程中,有着直接的指导意义。
二、言语的产生与感知
言语的产生与感知是通过联结说话者大脑和听话者大脑的一系列心理、生理和物理的转换过程完成的,其中任何一个环节出问题,言语都难以准确形成。这个过程可以分为“发音—传递—感知”三个阶段。第一阶段,说话者需要基于一定的交流目的,在传递言语信息之前,将言语信息在大脑中进行加工处理,利用大脑语言库中储存的信息进行编码,将该信息变为语言代码,形成传递信息的内容及内部语言。选择了语言代码后,说话者的神经系统开始发出一系列的神经肌肉运动指令,这些运动指令同时控制呼吸系统、发声系统和共鸣系统中各构音器官的协调运动,把内部语言转化为有规律的外部语言,产生一系列的言语语音,最后由说话者发出。这是一个心理现象转化为生理现象的过程。第二阶段,言语信号以声波的形式,以空气作为媒介传导,被听话者和说话者的耳郭收集,这个阶段是一种物理现象。第三阶段,言语信号的声波通过外耳道传至鼓膜,引起鼓膜和听骨链的振动,听骨链的镫骨受到振动后,传入内耳的外淋巴,外淋巴的液体振动继而引起基底膜的振动,使位于基底膜上的螺旋器上的毛细胞纤毛弯曲,毛细胞兴奋后产生电活动,释放神经递质,传递至螺旋神经节的轴突末梢,产生轴突动作电位。神经冲动电位沿脑干听觉传导通路向上传递,最终到达大脑颞叶听觉中枢,言语信号被听话者和说话者感知,这是一个从生理现象转变为心理现象的过程。
大脑识别语音时,声波通过听觉器官传到大脑进行语音识别,并且只选择跟识别语音相关的信息,筛除声波所携带的其他多余信息,这些是经过异常复杂的大脑语言加工过程完成的。人类语言包括表达、理解、阅读、书写等功能,不同功能在大脑中的分布也不同。在20世纪90年代前,对人类大脑语言区定位主要依据的是形态学方面的研究。Paul Broca(1861年)和Carl Wernicke(1874年)提出损伤-症状映射(lesion-symptom mapping),发现了言语及语言在大脑皮层中的功能定位。最早的语言大脑功能定位来自神经外科医生Paul Broca报道的一例由于左侧前额叶的严重损伤而导致语言表达障碍的失语症患者,从而第一次描述了人类特异性脑语言功能区,确定了Broca区为人脑语言中枢,位于左大脑半球额下回后部。1874年,德国神经学家Carl Wernicke通过对语言理解障碍患者的尸体解剖,提出Wernicke区为语言听觉记忆储存功能区。20世纪60年代,美国神经心理学家Norman Geschwind提出,左大脑半球有前后两个主要语言加工区,前部Broca区(即左侧额叶区)负责语言产生,后部Wernicke区(即左侧颞叶区)负责语言的接收和理解。随后,Charles Scott Sherrington和Albert Leyton建立了非人灵长类动物的第一个运动皮层定位图谱。随着神经麻醉技术的进步,Penfield通过对被试者进行清醒开颅术,在言语和语言映射方面取得了更复杂、更全面的理解。
(一)经典语言模型
Wernicke-Lichtheim-Geschwind(WLG)模型是描述脑语言区的经典模型,其阐述了一个完全左侧化的语言系统,认为语言系统主要位于左外侧裂皮层,主要包括语言运动中枢Broca区和语言听觉理解中枢Wernicke区,区域间由弓状束连接,在人类语言处理中的重要作用。在经典语言模型中,“M”代表语言计划和产生中枢(Broca区),“A”代表语音中枢(Wernicke区),按照这一模型进行分类,布罗卡失语症(Broca's aphasia,BA)是指“M”受到损伤;韦尼克失语症(Wernicke's aphasia,WA)是指“A”受到损伤;传导性失语症是指“A”到“M”的传导通路受到损伤;经皮质运动性失语症是指“B”到“M”的通路受到损伤;经皮质感觉性失语是“A”到“B”的通路受到损伤;经皮质混合性失语症是指“B”到“M”和“A”到“B”的通路都受到损伤;完全性失语症是整个系统都受到损伤。
(二)言语加工双通路模型
Gregory Hickok和David Poeppel提出的双通路模型(dual stream model)为Wernicke-Lichtheim-Geschwind“house”模型的拓展。人类言语加工包括腹侧通路和背侧通路两条分离的通路。腹侧通路负责将声音表征映射到意义表征,即加工言语信号用以听觉理解。背侧通路负责听觉-动作整合功能,即将言语声学表征映射到额叶的动作发音表征,对于言语发展(speech development)、正常的言语产生、语音复述来说是必需的。
1.腹侧通路
腹侧通路让我们能够加工词汇、短语和句子,理解语义,简而言之就是根据刺激判断“是什么”。根据Hickok和Popepel的理论,要实现语义表征,需要先从语音网络到词汇接口,再到整合网络。
(1)词汇接口(lecical interface):
词汇接口并不存储词义信息,而是将语音信息与语义信息连接,即声音和概念的联系。失语症的相关影像学研究发现,双侧的颞上回和颞下回区域损伤会影响语音到语义的传输,但不影响语义概念网络。
(2)整合网络(combinational network):
整合网络指的是词汇接口从语音网络中接收语音信息后,将其投射到左侧的颞前叶中。这一区域将单词整合为短语和句子,形成语义和语法的信息。早期影像学研究发现,相比于听到残缺的句子,听到语法完整正确的句子时,被试的左侧颞前叶会有更多的激活。之后的研究中,关于颞前叶是否按功能进行分布有许多的争议。一些研究支持颞前叶中一部分区域对语义信息更敏感,另一部分区域则对语法信息更敏感,但是这些研究中语义和语法加工的刺激材料是不同的,存在不严谨之处。后来,Rogalsky与Hickok在2009年进行的一项磁共振研究避免了这个问题。该研究让三组被试听同样的句子,第一组被试者需要对语义有异常的句子进行反应,第二组被试者需要对有语法错误的句子进行反应,第三组被试者不需要做任何反应。另外还有一组被试者听一些名词,不需要做任何反应。结果,整个颞前叶区域在前两个需要选择性注意的任务中有更多的激活。大部分颞前叶对语义和语法任务同样敏感,只有一小部分对语义信息更加敏感。这说明了颞前叶采用了自上而下的加工,并且其对语法和语义的加工是紧密联系的。
2.背侧通路
与腹侧通路表征语义不同,背侧通路将感知觉与运动表征相联系,也就是根据刺激判断“怎么做”才能说成这样。在背侧通路中,言语感知(speech perception)被映射到言语生成中。根据Hickok和Poeppel的理论假设,这一通路包括两个主要结构,即感觉运动接口接收颞上回前部和颞上沟中的语音表征并进行感觉运动的转换,然后将其投射到位于左侧后额叶的发音网络中。整个神经环路包括前馈和反馈过程,能让我们根据语音刺激习得发音模式的同时,帮助我们根据之前学会的发音模式去理解新的句子。
(1)感觉运动接口(sensorimotor interface):
位于外侧裂的深处,有一块区域叫作颞平面(planum temporale,PT),这一区域的特点是与其他皮层有许多联结。在颞平面中有一块被称为左部颞平面的区域,被认为是语音网络和发音网络的接口。根据感觉运动接口的假设,左部颞平面在没有声音反馈即心中默念时也参与发音过程。Hickok在2003年进行了一项实验,被试者听到一个3s长的无意义句子(句子中的名词和动词变成了假词),然后被试者需要不出声地练习听到的句子15s;接着被试者再听另外一个3s长的无意义句子,这时被试者只需要休息15s。结果左部颞平面不仅在听到两个句子时产生激活,在默读第一个句子的时候也有显著的激活,而背中侧颞上回前部只在听到两个句子时被激活。之后研究者还加入了“音乐”条件,将原来“言语”条件中的刺激换成一段旋律,实验程序不变,发现“音乐”条件下的激活模式和“言语”条件十分相似。这说明左部颞平面这一区域没有明显的语言选择性,可以加工语言之外的声音模式。另外,失语症的研究也发现,左侧颞平面损伤的被试者能够进行言语理解,但是有言语错乱,特别是在说长词、复杂词和低频词的时候。这是因为这些词通常无法直接通过动作记忆发出,需要语音表征的指导。
(2)发音网络(articulatory network):
发音网络包含了左侧后额叶的许多区域,包括Broca区、前运动皮层、初级运动皮层和前岛叶。关于这一部分内容在之后的言语生成中还会介绍,这里只讲发音网络在言语理解中的两个重要功能:语音短时记忆(auditory-verbal short-time memory,STM)和言语感知表征。语音短时记忆也叫作语音回路(phonological loop)。在认知心理学中,人的短时记忆中通过语音回路循环重复语言信息,进行精细性复述。经典的研究范式是给予被试者一段数字然后让被试者复述,被试者为了保证能够正确复述,需要不断地在语音回路中重复这段数字。语音短时记忆的神经机制一直以来是一个很有争议的问题,目前的理论认为语音短时记忆需要整个背侧通路的整体激活,发音网络作为执行控制系统,通过感觉运动接口不断更新语音网络。这一假设和刚才关于感觉运动接口的实验结果是一致的。而对于发音网络,一项关于声音监控任务的经颅磁刺激研究也支持这一假设。实验采用四种言语刺激,其中两种使用嘴唇发出的/bɑ/和/pɑ/,两种使用舌头发出的/dɑ/和/tɑ/,被试者需要在听到刺激后进行辨认。为了避免天花板效应,刺激中加入了一些白噪声,保证正常条件下的准确率为75%。经颅磁刺激的刺激部位是初级运动皮层中控制嘴唇的区域和控制舌头的区域,刺激时间是声音刺激的50ms之前。实验的假设是对于嘴唇控制区的刺激能够加快对于/bɑ/和/pɑ/音的辨认。