跳至主要內容

Chapter1

宇称轩辕大约 23 分钟神经工程书籍

这是 How To Build A Brain 的第一章

Topic: SNN

Where: Oxford University Press

Who: Eliasmith

1.3 Where We Are

提出认为有任何关于识别良好的认知理论标准的协议,对许多人来说可能会感到奇怪。毕竟,认知研究一直被支持三种方法之一的倡导者之间激烈辩论所主导。例如,符号方法的支持者将连接主义称为“相当沉闷和顽固”(Fodor, 1995)。尽管如此,我仍然相信在解释目标方面存在某些共识。我并不是指暗示已经就认知达成了共识定义。相反,我想表明,“认知”对大多数研究人员而言就像司法波特·斯图尔特眼中的“色情物品”:“今天我不再试图进一步定义[色情];也许我永远无法成功地做到这样清晰地表述它。但是当我看到它时……”。

大多数行为研究者似乎也知道认知是什么。文献中有许多关于各种行为的精彩描述,无论读者是否致力于符号主义、连接主义或动态主义,他们都能识别出与认知相关的行为。这并不意味着符号派认为构建类比是一种认知行为而动态学家则持相反观点。这就是我提出我们可以确定评估认知理论的共识标准的原因所在。稍微具有挑衅性地说,我将称之为“核心认知标准”,简称 CCC。需要注意的是,本节只是对拟议 CCC 考虑事项进行了第一次概述和总结。在明确运用它们之前,在第 8 章中我会回到更详细地讨论 CCC 问题上来。

那么什么是 CCC?让我们看看研究人员对认知系统的定义。以下是每个观点支持者的例子:

  • 动态主义(van Gelder&Gelder,1995 年,第 375-376 页):“[认知]至少具有两个深层特征,与其他复杂的自然过程区分开来:…依赖于知识;以及独特的复杂性,在自然语言结构复杂性最清晰地表现出来。
  • 连接主义(Rumelhart&McClelland,1986b,第 13 页):Rumelhart 和 McClelland 明确将其著名的 PDP(Parallel Distributed Processing)研究的目标确定为“认知”。为了解决这个问题,他们认为必须解释“运动控制、感知、记忆和语言”。
  • 符号化方法(Newell,1990 年,第 15 页):Newell 按认知中心性的顺序列出以下行为清单:(1)问题解决、决策制定、例行动作;(2)记忆、学习、技能;(3)感知、运动行为;(4)语言;(5)动机、情感;(6)想象、梦境和白日梦。

这些例子并没有直接提供识别好的认知理论的标准,而是试图确定必须解释哪些特定行为方面才能成功地解释认知。事实上,Newell(1990;1980)提供了大约十几个用于认知系统的功能标准列表。最近,Anderson 和 Lebiere(2003)详细扩展和讨论了 Newell 的清单。然而,为了了解编制这种清单背后的动机,从理论上梳理促使特定功能标准被列入此类清单的理论承诺也是有帮助的。最终,我提出的 CCC 既包括理论标准又包括功能标准。

让我开始指出这些认知行为描述中有几个共同点。首先,所有三种都涉及到语言。这并不奇怪,因为语言通常被视为人类认知能力的巅峰。但是,在这些描述中还有其他共同承诺。例如,每个列表都确定了适应性和灵活性的重要性。对于范·赫尔德来说,适应性显而易见,因为认知行为依赖于知识。对于另外两种方法,则明确提到记忆和学习突显了更普遍的适应性兴趣。此外,虽然在范·赫尔德的特定引用中没有提到动态主义(Port&van Gelder, 1995),但它建立在将行动和感知置于认知核心地位的承诺上。也许令人惊讶的是,连接主义者和符号支持者清楚地将运动控制和感知视为理解认知的重要组成部分。可以明确地看出所有三方面都同意这些更基本过程发挥着重要作用

虽然这些只是简单的列表,但我相信我们可以从中看到明确旨在确定系统何以成为认知系统的后续讨论动机。让我简要地考虑一下其中一些更直接的讨论。最早、也可能是最著名的之一,是由 Fodor 和 Pylyshyn 在他们 1988 年的文章“连接主义与认知结构:批判性分析”中提供的。尽管主要是对当时流行的连接主义进行批评,但这篇文章还提供了三个关于成为认知系统所需条件的明确限制。它们分别是生产力、系统性和组合性生产力指一个系统能够基于少量基本表示(词汇表)和将它们组合起来(语法) 的规则生成大量表示形式的能力;而系统性则指某些表示集合密切相关联。例如,Fodor 和 Pylyshyn 认为,认知系统无法表示‘约翰爱玛丽’而不必须能够表示‘玛丽爱约翰’。最后,组合性建议复杂表示形式意义上直接由基本表示形式意义加总得出。他们声称任何好理论都必须解释这些认知基本特征。

最近,Jackendoff(2002)在他的书中专门探讨了认知神经科学面临的挑战。他提出解释认知时需要应对四个主要挑战。具体而言,Jackendoff 的挑战包括:(1)绑定问题的复杂性(即构建复杂表征需要将大量基本表征绑定在一起);(2)双重问题(即如何区分一个表征标记的多个实例);(3)变量问题(即如何通用地表示复杂表征中的角色[例如“主语”] ),以及 (4)如何将长期和工作记忆纳入认知过程中。其中一些挑战与 Fodor 和 Pylyshyn 所面临的挑战密切相关,因此在 CCC 中适当地与它们整合在一起。(见 表 1.1)。

表 1.1 认知理论的核心认知标准(Core Cognitive Criteria,CCC)

序号认知标准描述
1代表性结构a. 系统性
b. 组合性
c. 生产力(变量问题)
d. 大规模绑定问题
2性能问题a. 语法泛化
b. 鲁棒性
c. 适应性
d. 记忆
e. 可伸缩性
3科学价值a. 三角测量(与更多的数据源接触)
b. 紧凑性

Fodor、Pylyshyn 和 Jackendoff 的标准来自于经典的符号视角。在更加连接主义导向的讨论中,Don Norman 总结了他与 Bobrow 在 1970 年代中期撰写的多篇论文,并阐述了人类信息处理的基本特性(Norman, 1986)。根据他们对行为数据的考虑,他们认为人类认知具有以下特点:强健(即适当地不敏感于缺失或嘈杂数据和损伤)、灵活并依赖“内容可寻址”记忆。一种核心的认知灵活性是“语言结构复杂性”的一个例子,这也是 van Gelder 所指出的。“语法概括”这个概念捕捉到了人们可以灵活利用语言结构而独立于其内容进行操作(见第 8.2.2.1 节)。与符号考虑相比,在这些标准中强调从表征约束转向更多由心理学数据“混乱程度”驱动下产生出来更多行为上限制。

动力学家在他们对认知的讨论中可以看到继续朝着复杂性的趋势发展。例如,Schöner(2008)在他的文章“动态系统方法与认知”中进行了讨论。在开头几段中,他提供了绘画和玩耍时发生的复杂行为和感知的例子。他得出结论:“当具有身体和感官系统、处于结构化环境中并将其个体行为历史带入其中并迅速适应其中时,认知就会发生”(第 101 页)。再次强调了适应性和韧性的重要性,并强调了环境角色的作用。

所有三个视角都将其解释的目标看作是一个庞大而复杂的系统,这一点非常重要。因此,所有三个视角都怀疑“玩具”模型过度简化了给定的认知任务或领域。然而,实际考虑到目前为止限制了所有理论呈现简单模型。但任何好理论必须可扩展到更大、更复杂的问题的理想是共享的。对于“可扩展性”的需求表达了历史趋势,即从我们的认知理论中要求越来越精细的解释。

在呈现 CCC 的最终总结之前,我认为一个好的认知理论必须满足额外的标准。我怀疑这些标准不会引起争议,因为它们是科学哲学家在考虑一般情况下什么构成了良好科学理论时所产生的洞见(Popper, 1959; Quine & Ullian, 1970; Kitcher, 1993; Craver, 2007). 我认为显而易见的是,每种方法都假定我们正在尝试建立关于认知系统的科学理论。然而,这些标准可能在区分好的认知理论和坏的认知理论方面发挥重要作用。

好的科学理论需要考虑到统一性和简洁性。好的科学理论通常被认为是统一的:数据来源越多,与之相符合的科学领域也越多,这个理论就越好。爱因斯坦相对论比牛顿运动定律更受欢迎的原因之一是前者与我们观察到的现象更加吻合。我将这个标准称为“三角测量”,强调一个好的理论应该以一种连贯而统一的方式联系许多不同来源的数据。

此外,好的理论倾向于简洁。我称之为“紧凑性”标准,以强调好的理论可以简明地陈述而不需要临时添加。太阳系中日心说比地心说更受欢迎的原因是,在后者中,我们不仅需要指定行星的圆形轨道,还需要解释每个行星许多臭名昭著的“本轮”。也就是说,在地心说中存在一定程度上任意性,使其不够有力。相反,日心说只需为每个行星指定一个简单椭圆即可。因此,同样的数据可以用更紧凑的方式通过日心说来解释。

尽管这次讨论很简短,但我相信这些考虑提供了几个标准的合理明示,行为科学研究人员可以同意使用这些标准来评估认知理论,而不受他们自己的理论偏见影响。因此,表 1.1 总结了我们至少在表面上从本次讨论中可以得出的 CCC。作为提醒,我并不希望仅仅识别这些标准就能说服你们。每个标准的更详细讨论将在第 8 章中呈现。然而,在我们考虑书中其余部分对它们满足的新建议时,牢记 CCC 是非常有用的。

1.4 Questions and Answers

CCC 关注的是对认知特征进行评估,而不是指导这种特征的发展。因此,在本节中,我确定了过去 50 年中相对持久的四个核心问题。我认为详细回答这些问题将在很大程度上解决大部分甚至全部 CCC。我的详细答案在第 3 章到第 6 章中,并且我对这些答案针对 CCC 的评估在第 9 章中进行。然而,我在此提供了一些简要回答草图,其目的是提供所建议架构的高层次视图和未来方向感。

这些问题包括:

  1. 系统如何捕捉语义?
  2. 系统如何编码和操作句法结构?
  3. 如何根据任务需求灵活控制信息流动?
  4. 系统如何运用记忆和学习?

构建认知系统模型时长期存在的问题是如何描述系统内部状态与它们所代表的外部世界对象之间的关系。也就是说,我们如何知道内部状态的含义?当然,对于我们构建的任何系统,我们可以简单地定义特定状态的含义,并称其为该状态的表示。不幸的是,这非常难以做到:试想一下尝试定义世界中的狗和你头脑中“狗”这个概念之间的映射。有关概念方面大量心理学文献恰恰指出了这种映射复杂性。 认知科学领域中大多数研究人员都很清楚(并且害怕解决)这个问题,通常称为“符号基础问题”(Harnad, 1990)。 然而,任何认知系统模型都必须做出关于该系统如何获取表示(representations)的意义(meaning)的假设。因此回答第一个问题将迫使希望描述认知过程者至少说明他们对内部状态与外部物体之间关系方面所持有假设。无论故事情节如何,它都必须合理地适用于我们构建的模型并解释自然的系统。

在第三章中,我介绍了 “语义指针” 的概念来帮助解决这个问题。语义指针是一种神经表示,它携带部分语义内容,并且可以组合成支持复杂认知所需的表征结构。我在第四章中讨论了可组合性,因此请在第三章中关注语义内容。我将这些表示称为“指针”,因为与计算机科学中的“指针”类似,它们紧凑、高效地操作,并标识(或“指向”)更复杂的表示形式。

然而,在计算机科学中,指针和它们的目标是任意相关的。相比之下,语义指针与它们所指向的内容具有系统性关系。例如,在视觉层次结构顶部的神经表示将是一个语义指针,它指向编码在视觉皮层中图像许多低级视觉属性。它之所以能够这样做,是因为它并不明确包含那些属性的表示,但可以通过反馈连接用于重新激活那些低级别表示。

语义指针和其所指之间的关系可以被看作是一种压缩。就像数字图像可以压缩成小的 JPEG 文件一样,较低级别的视觉信息也可以压缩成语义指针。要识别 JPEG 捕获的视觉特征,必须对其进行解压缩。然而,我们可以在不完全解压缩它的情况下以某些方式操作该 JPEG-例如将其交给朋友、复制它或者翻转它。但是,为了恢复视觉细节,我们必须解压或者按照指针术语中所说,“取消引用”它。因此,在我早期的视觉示例中反馈连接功能中包括“取消引用”。

关键是,如果始终使用相同的压缩过程,则类似的未压缩输入将导致类似的压缩表示。这就是语义指针具有语义性质的意义所在。它们可以直接进行比较,以获取它们被压缩的状态之间相似度的近似感觉。因此,它们携带着我们可能称之为“表面”语义的信息。要深入了解“深层”语义,我们需要更直接地比较未经压缩处理的状态。当然,通过压缩丢失的大部分信息都存在于用于生成已压缩表示形式的过程中。因此,为了获得深层次上下文含义,我们必须能够有效地运行系统“向后”,以阐明哪些属性可能导致该指针产生。这只是对取消引用操作另一种描述方式而已。

在第三章中,我展示了如何在分层脉冲神经模型中从视觉图像构建语义指针的具体示例。当然,视觉只是驱动内部表示的信息来源之一,但我认为这个故事足够普遍,可以涵盖其他感官模态。而且,至关重要的是,我展示了一个例子:如何将 运动控制理解为取消语义指针(dereferencing) 的过程。特别地,在这里我展示了如何使用此过程来控制非线性、6 自由度机械臂。这些例子和周围讨论描述了感知和运动语义如何被编码成语义指针、转换并以生物学上可行的方式用于驱动行为。

上面的第二个问题涉及到我已经指出的几乎普遍被认为是认知系统标志性的能力:操纵结构化表征。无论我们是否认为内部表征本身是有结构的(或者说,它们是否存在),我们必须面对行为不可避免地看起来像是在操纵语言样表征。因此,任何关于认知的描述都必须讲述一个关于如何通过认知系统编码和操作句法结构的故事。回答这个问题将至少涉及 CCC 中前五个标准。

在第四章中,我通过展示语义指针如何以类似符号的方式组合来创建复杂的表征结构来解决这个问题。具体而言,我展示了不同的语义指针如何被绑定在一起(例如,bind[subject, dog]),然后收集到一个组中(例如,group[bind(subject, dog), bind(relation, chased), bind(object, ball)])来表示结构化表征,比如“狗追球”。重要的是,我描述了如何不仅编码和解码这些结构,还可以在脉冲神经网络中操作和学习它们。在那里,我认为语义指针可以扩展到人类结构表征的复杂性,并遵守大脑已知的解剖和生理限制。我也简要回顾了语义问题,因为我们许多概念与其他概念存在结构关系,这表明完整的语义说明将需要包括结构化表征。为了演示这些方法,我描述了一个最近能够解释人类普通流体智力测试(Raven's Progressive Matrices task)成绩的模型。

第三个问题涉及到认知系统广受赞誉的一个特点:它们的惊人、快速的适应能力。面对新情况,人们可以迅速地勘察周围环境,识别问题,并制定解决这些问题的计划——通常在几秒钟内完成。执行每个步骤都需要通过大量信息在大脑中进行协调流动。例如,如果我只是告诉你执行任务所需最相关的信息将从听觉转换为视觉,你的大脑就可以立即重新配置自己以利用这种知识。不知何故,你的大脑会重新路由信息,使得用于规划的信息来自视觉系统而不是听觉系统。我们毫不费力、快速且持续地做到这一点

在第五章中,我指出这种控制取决于生成控制信号(即选择要做什么)和应用该控制信号(即执行所选动作)两个方面。我描述了基底节似乎在行动选择中扮演的核心角色,并开发了一个详细的神经模型来研究大脑的这一部分。我提供了几个例子,说明基底节如何被用来选择适当的语义指针作为行动,其他的语义指针作为输入。然后,我描述了注意力是大脑信息路由的一个很好例子,并认为最近关于注意力路由的详细神经模型原则可以普遍地应用于整个大脑。最后,我将这两种方法结合起来展示如何利用基底节来控制大脑信息路由以实现处理结构化语义指针序列的灵活控制。本章结束时,我描述了汉诺塔任务的完全 SNN 模型,在匹配基底节和皮层解剖学、生理学、毫秒级 spike 数据和 fMRI 数据等方面表现良好,并解释任务的行为表现。 我认为这是生物认知模型的一个很好例子,它涵盖许多时间和空间分析尺度。

第四个问题关注另一个认知灵活性的重要来源:我们利用过去信息来提高未来任务表现的能力。信息对任务的相关时间范围从几秒到数年不等。因此,不足为奇,大脑发展了机制以在这些时间尺度上存储和利用信息。记忆和学习是对这些机制令人印象深刻的能力的两种行为描述。对记忆和学习的考虑直接解决了 CCC 中确定的几个性能问题,任何认知系统的描述都必须提供某种解释,说明相关信息如何通过时间传播以及系统如何使用其过去经验进行适应。

到第 6 章,我已经讨论了学习和记忆的几个方面。 因此,在那一章中,我特别关注 (1) 工作记忆,以及 (2) 生物学上现实的学习规则与高级功能之间的关系。 关于工作记忆,我描述了最近的串行工作记忆脉冲神经元模型,它使用绑定语义指针来解释人类工作记忆文献中的各种行为结果。 然后我转向学习并描述一个新的学习规则,该规则能够解释与尖峰时间依赖可塑性 (STDP) 相关的核心生物学结果。 我还描述了同样的规则如何能够在给定适当的错误信息的情况下学习语义指针之间的非线性映射。 作为示例,我展示了可以通过这种方式学习用于构造结构化表示的绑定操作。 我还展示了一个模型,该模型演示了如何将此规则纳入之前介绍的基底节模型,以解释强化学习任务期间大鼠腹侧纹状体中神经元的详细尖峰模式。 然后,我展示了同样的规则可以用来解释人类在 Wason 卡片任务(一种基于语言的推理任务)上的表现。

一旦我详细介绍了这四个问题的答案,我就描述了我所称之为 “语义指针架构”(Semantic Pointer Architecture, SPA。然而,必须逐步呈现每个架构方面以解释其实用性,这使得整体架构的实用性变得模糊。因此,在第 7 章中,我提出了一个引人注目的模型——语义指针架构统一网络(Semantic Pointer Architecture Unified Network, Spaun),它集成了许多独立考虑的功能(Eliasmith 等人,2012 年)。该模型执行八项不同任务,从对象识别和运动控制到学习和句法归纳。该模型在任务之间没有改变(除非通过自身动态),并且是由 Spiking 神经元实现的。正是在本章中,我展示了使用概率论可以很好地描述体系结构所采用的机制和表示方法。 Spaun 旨在成为 SPA 当前最佳范例。

在本书的第二部分,我使用 CCC 评估 SPA,并将其与其他当前的认知架构进行对比。 不出所料,我认为 SPA 比竞争架构有更多值得推荐的地方。 当然,仍然存在许多挑战,我试图在最后一章中说明其中的一些挑战。

在这一点上值得强调的是,这里提供的方法不像过去的方法那样具有隐喻性。 显然,我在解释和发展 SPA 背后的思想时都使用了隐喻(例如“语义指针”)。 然而,我在关于神经功能的特定假设中使用的隐喻是“自底向上”神经元是我们有许多直接和间接测量方法的物理实体。 我们无法以类似无争议的方式测量大脑中的符号、联结主义的“节点”或动态主义的“集总参数”。 准确地说,这就是为什么 SPA 不像其他方法那样是一种隐喻观点。

chapter1-1
chapter1-1

因为 SPA 不是这样隐喻的,我觉得它可能有助于统一我们对认知的理解。 我使用了四个问题来指导我对认知架构的描述。 不出所料,这些问题已经有了很多答案。 通常会有多个相互矛盾的答案,从而引发各种当代辩论。 例如,关于认知表征最好理解为符号还是亚符号,存在着一场众所周知的争论 (Fodor & Pylyshyn, 1988; Smolensky, 1988)。 因此,通过描述它最直接支持此类辩论的哪一方来呈现一种新架构似乎很自然。

然而,Thagard(2012 年)最近建议,SPA 可以通过提供对立观点的综合来解决其中的许多争论。 例如,我们可以声称 SPA 是所有这些,而不是声称 SPA 是符号式的(symbolic)的或分布式的(subsymbolic)的,或者是计算性的或动力性的,或者是心理性的或神经性的。 他强调的七场辩论如表 1.2 所示。 我提供此表作为一种承诺:表 1.2 中的所有概念都在本书的某个时刻进行了讨论,并且 SPA 与每个概念的关系将变得清晰。 然而,在这一点上,尽管我会在第 10 章回到它的内容,但我基本上没有解释该表。

chapter1-2
chapter1-2

当然,必须做很多工作才能令人信服地证明 SPA 成功地为任何这些长期争论提供了解决方案。 因此,直到第 9 章我才回到这个主张。尽管如此,尽早阐明我不认为 SPA 支持特定的认知方法是有帮助的。 相反,它更多地借鉴并希望统一那些经常被描述为理解认知功能的竞争方式。