基于大模型的共享语言空间,模拟人类的“秒懂”机制

文章正文
发布时间:2024-09-08 16:25

快读:我们何以真正听懂对方的语言?当对方说反话时,为什么我们能意识到对方真实的想法和词语本意相悖?美国普林斯顿大学的研究团队通过收集对话中双方的神经活动,以及基于GPT-2开发的计算框架,有效地分离出了对话中的语言性和非语言性因素对大脑活动的影响,在一定程度上阐释了对话中的词语是如何影响我们的思维,并避免了“对牛弹琴”的发生。

人类对语言理解的多样性

在语言的使用上,最绕不开的话题就是理解和误解。表达的本质是希望被“听见”,然而,就算说着同一语言,同音字,一词多义、或者同一词汇在不同语境下的意义变迁,都会为表达带来难度,导致双方理解出现歧义。也就是说,良好的沟通和理解是建立在双方对某一语境下的词汇表达的共识上的。比如,“cold(冷)”这个词,既可以表达温度,也可以表示人的性格,还可以表示一种病毒感染疾病。根据语境,‘你像冰一样冷’既可以被理解为体温冷,也可以被理解为性格高冷。那么,在对话中的双方到底是如何做到对同一词语拥有相同的理解呢?

在大语言模型被广泛使用之前,学界对于语境中词语使用的精确模拟相对匮乏。早期的研究会使用数据驱动、未经调整的耦合方法(data-driven, unmediated coupling methods),例如测量被试间神经活动相似性(intersubject correlation,ISC)的强度,来测量对话双方的共同理解程度。此前,ISC被大量用于理解不同个体在相似刺激或任务下,产生的神经活动的相似性。比如,2008年Uri Hasson团队就使用 ISC 技术,通过分析记忆表现后的跨参与者相关性(ISC-SM),来识别电影观看中成功编码与未成功编码片段的BOLD反应,在观众间的相关脑区。通过对比观众在记忆成功与未成功片段中的脑活动相似度,研究团队揭示了与记忆形成相关的脑区活动模式。(Uri Hasson et al., 2008)

这种技术在一定程度上揭示了表达者和倾听者神经活动之间的关联性,却没有将交流内容这一因素分离出来单独研究。这是由于,ISC强度可以被任何一对在被试之间共有的信号调动。比如说,如果在面对面的交流中,ISC指数高有可能是因为交流中的词语在双方的理解中相同,也有可能是因为其他的非语言因素,比如音调、韵律、肢体动作、面部表情、眼神等和社交表达相关的非词义因素。所以,该指数的强度并不能揭示交流中具体哪个特征在双方的大脑中达成了一致,就算 ISC 指数高,也不能说明双方类似的大脑活动是因为相同的语言内容刺激。

大语言模型在语言理解中的作用

直到最近,大语言模型(LLMs)被广泛使用后,人们再次意识到日常交流中语境对语义理解的重要性,学界开始为对话中共同理解的脑神经基础寻找新的解答。在大语言生成模型的机制中,通过学习大量自然语言的语料,并且将语料库编码成数据结构后嵌入多维空间,仅仅通过简单的“下一词预测”就可以生成出符合最语境的句子。这种对语言的处理和‘计算’方式,在某种程度上与人类理解语言的机制相似。

此前就有研究表明,语言模型和人类在处理自然语言方面共享相同的计算原则。详细来讲,在人类大脑和自回归动态语言模型(DLMs)处理相同的自然叙述时,它们共享三个基本的计算原则:(1)在词出现之前,两者都参与连续的下一个词预测;(2)两者都将其词出现前的预测与即将到来的词进行匹配,以计算词出现后的惊讶度;(3)两者都依靠上下文嵌入来表达语境中的词汇 (Ariel Goldstein et al., 2022)。

由此,学界自然而然地产生了用大语言模型来进一步学习理解的想法,尤其是从表达者到倾听者大脑的语言信息传递:LLMs是否能构建一个明确的数值模型,用于模拟自然沟通中大脑间共享的、语境依赖信息的传递?

Zada, Zaid, et al. "A shared model-based linguistic space for transmitting our thoughts from brain to brain in natural conversations." Neuron (2024).

实验方法

在最新发表在Neuron的一项研究对此进行了讨论。研究招募了11对参与者(共22人)进行面对面的自然对话,同时使用脑皮层电图(ECoG)技术记录他们的大脑活动。ECoG是一种高时空分辨率的神经记录技术,可以直接从大脑皮层表面记录电信号。

在获得了对话时高精度的神经活动记录数据后,研究团队用以GPT-2为基本模型生成的上下文嵌入,构建了一个多维的语言嵌入空间。这个空间能够捕捉词语的语义、句法和上下文特征。接着,研究者使用这些嵌入来预测表达者和倾听者大脑中的神经活动。他们训练编码模型,将嵌入映射到特定脑区的神经反应上。

图1:用于捕获表达者和倾听者语言耦合的编码模型。

主要发现

研究发现,表达者的大脑在单词发音之前就已经形成了依赖于语境的语言内容,而在倾听者的大脑中,这些语言内容在单词发音之后再次出现。在面对面交流中,表达者和倾听者的大脑响应可能由于其他变量(如面部表情、手势和背景声音)而耦合,这些变量在本质上不属于语言。

通过大脑活动数据建模而成的共享嵌入空间不仅可以预测不同脑区的神经活动,还可以记录不同时间的动态和选择性(见图2-B)。这些功能使得嵌入空间可以成功地预测在对话中双方各自的神经活动。

在此基础上,研究员使用基于表达者神经活动的数据训练而成的数据来预测倾听者的神经活动,然后再反过来预测。在反复的校准后,编码模型排除了在对话中可能对理解有帮助,但是并没有出现在语句中的非语言因素。也就是说,通过编码模型配对对话双方的脑部活动优于传统的ISC方法,可以限制任何一对被观察的表达-倾听被试是在一对相同的、依赖于语境的语言嵌入中的。

图2:表达者与倾听者的脑内语言编码表现。

不过,该实验仍然使用ISC方法测量了表达者和倾听者之间神经活动的相似性(图3-C)。配对编码实验表明,与对话时候的信息流一致,表达者的大脑是在“引导”倾听者的大脑的(图3-B)。详细来讲,在说话时每一个词汇被叙述之前,语言性内容就已经在表达者的大脑中出现了,此后,在该词语被听到之后,同样的内容再在倾听者的大脑中出现。这种时间性的动势是逐词推进、并且仅限于当前词语的。

除了对单个词语的分析,嵌入空间也提取出了自然对话中文本的语言性特征(linguistic features),包括形态学的、句法的、语义的、上下文的、和从属关系上的。相较于传统的非中介耦合方法(如ISC)和基于传统心理语言学开发的特征对方法(表达音素模型和句法模型),以大语言生成模型为基础的框架可以支持更严谨的检验。 

为了保证嵌入空间对于语言性特征的学习具有传递性(connectivity),研究员还评估表达者和倾听者大脑内皮层语言网络各区域之间的语言耦合。举例来说,该实验使用了在表达者的前颞叶(ATL)神经活动上训练的编码模型来预测表达者的颞上回(STG)的神经活动。同样地,研究员还使用了在倾听者的颞上回(STG)神经活动上训练的编码模型来预测倾听者的前颞叶(ATL)的神经活动。这种分析产生了表达者和倾听者大脑内语言区域对之间的滞后编码矩阵(lag-by-lag encoding matrices)。这种交叉验证的方法可以有效地显示不同脑区之间信息的时间顺序和流动性。

图3:表达者-倾听者的脑对脑语言耦合。

此外,该实验也评估了非语言性因素对双方的共同理解形成的影响。这一部分,研究员采用了和先前实验相同的ISC技术,对比计算表达者和倾听者之间的脑部互动。和先前实验一致,我们发现了在自然对话中,表达者和倾听者的神经活动之间有强配对性。然而,这种分析方法无法逐词分离对话中的语言内容。所以,能被观察到的耦合并不具有对单词叙述的时间敏感性。由此可见,基于嵌入空间的方法在精确度上仍然超越传统技术。如果嵌入空间包括了语境依赖的词嵌入,表达者与倾听者之间的神经耦合度将显著提高。

最后,该研究还探讨了对话双方的耦合度是否与对话的语言空间相关。研究表明,表达者和倾听者的模型的权重和每一组对话之间存在关联,但是这种特殊度在多组对话平均化之后就被减弱了。也就是说,每一组对话是针对语境嵌入空间中的一个从属的特征组而存在偏差的。

研究意义

该研究开创性地分离了对话中的语言性和非语言性因素对大脑活动的影响,并确保了表达者与倾听者之间的共享神经活动能够与相同的显著语言特征保持一致。此外,该实验还根据大语言模型开创性地开发出了一个计算框架,标志着从未经调节的、被试间神经活动的耦合向更精确的、模型驱动的社会互动神经科学的范式转变。

未来,研究团队计划进一步拓宽这项研究的范围,将现有模型应用于其他类型的大脑活动数据,例如功能性磁共振成像(fMRI)数据。这将使研究人员能够探查在对话期间无法仅通过皮质脑电图(ECoG)捕捉到的深层大脑结构的运作机制。

此外,通过对比不同的神经成像技术,研究团队希望深入了解不同大脑区域如何在不同的时间尺度和不同类型的语言内容上相互作用和协同。这种跨技术和跨区域的分析将为理解复杂的神经语言网络提供更全面的视角,推动我们在认知神经科学领域向前迈出一大步。

[1] A shared model-based linguistic space for transmitting our thoughts from brain to brain in natural conversations. https://www.cell.com/neuron/fulltext/S0896-6273(24)00460-4

[2] Enhanced Intersubject Correlations during Movie Viewing Correlate with Successful Episodic Encoding. https://www.cell.com/neuron/fulltext/S0896-6273(07)01008-2

[3] Shared computational principles for language processing in humans and deep language models. https://www.nature.com/articles/s41593-022-01026-4