认知体系作为AI的一个重要分支，它的分类有哪些？_人工智能_AI资讯

认知体系作为人工智能的一个重要分支，它的研究和应用经过了近40年的发展，已取得了可见的成果。

关于认知体系的分类，目前相对主流的三大范式是：符号（也称为认知）、涌现（也称为联结）和混合。到底哪一个正确地反映了人类的认知过程，仍然是一个悬而未决的问题，在过去的30年里一直在争论.

符号范式通常使用预定义指令集等符号来表示概念。指令通常以if－then的规则形式执行，例如ACT－R， Soar等产生式体系。这是一种自然而直观的表示方式，因此符号操作仍然是一种公认的表示方式之一。虽然符号范式擅长计划（规划）和推理，但不具有处理环境变化和感知所需要的灵活性和鲁棒性。

涌现范式通常建立大规模并行模型来解决适应性和学习问题，例如神经网络模型，其数据来自输入节点。然而，由于信息或知识不再是一组可解释的符号实体，而往往分布在整个网络中，这导致模型不再透明。在涌现模式中，传统意义上的逻辑推理似乎成为不可能。

自然地，每种范式都有优缺点。一方面，任何符号体系结构创建初始知识库需要大量工作，可一旦完成，体系结构就完全功能性。另一方面，涌现体系结构更易于设计，但它们必须经过大量训练才能产生有用的行为；此外，他们的现有知识可能随着新行为的学习而恶化。

由于符号和涌现范式都不能解决认知的所有问题，混合范式试图结合符号和涌现的元素，这样的混合体系在我们选择的架构中是最常见的。一般来说，混合方式没有限制，而且已经探索了许多可能性。除了考虑表示，还考虑系统是单模块还是多模块、异构还是同质，或考虑混合的粒度（粗粒度还是细粒度）、符号和子符号组件之间的耦合性。此外，并不是所有的混合架构都明确地解决了所谓的符号和次符号元素以及将它们组合起来的问题。只有少数几个体系结构，例如ACTR、CLARION、DUAL、CogPrime、CAPS、SiMA、GMU－BICA和Sigma，认为这种集成是必要的。我们将重点放在表示和处理上。

图1显示了分类分组的组织结构。在顶层分成了：符号的、涌现的和混合的。关于这些术语的界定也是模糊的，即使对于最著名的架构（例如Soar和ACT－R）也不能达成一致。尽管两者都将符号和次符号元素结合起来，ACT－R的作者明确地表达为混合模式，而Soar没有。各位学者的观点也不一致，Soar和ACT－R在［14，15］中都被称为符号主义者，而［16］将它们列为混合体。

图1

为了避免分组的不一致性，我们假设显式符号是符号表示的原子，可以组合成有意义的表达式。这些符号用于推理或句法分析。子符号表示通常与神经元的隐喻联系在一起，这种表示的一个典型是神经网络。在神经网络中，知识被编码为分布在神经元之间的数值模式，与单元相关联的权重影响处理，并通过学习获得。

对于我们的分类，我们假设任何非显式符号和处理（句法操作除外）都是子符号（例如数值数据、像素、概率，传播激活、强化学习等）。结合了两种表示中的任意组合都被当作混合模式。给定这些定义，将标签分配给所有架构并将它们可视化为图1。

我们区分了两类涌现类别：实现类生物神经元的神经元模型和更接近人工神经网络的连接（逻辑）模式。在混合模式中，我们将符号子处理（其中符号模式与执行子符号计算模块相结合）作为混合模式的一个子类，符号子处理组中的架构至少包括一个用于感知处理的子符号模块，而其余的知识和处理是符号的，例如3T， ATLANTIS， RCS， DIARC， CARACaS and CoSy。虽然存在其他类型的功能组合（例如协同处理、元处理和链处理），但是难以归类。因此，其他的都归类为完全集成的混合模式。完全集成的体系结构使用多种方法来组合不同的表示。ACT－R、Soar、CAPS、Copycat／metacat、CHREST、CHARISMA、CELTS、CoJACK、CLARION、REM、NARS和Xapagy将符号概念和具有次符号元素（如激活值、扩散激活、随机选择过程、强化学习等）的规则结合起来。

综上所述，混合架构是数量最多的一组，并显示出增长趋势。混合架构根据符号和次符号组件的比例和扮演的角色，在涌现范式和符号范式之间形成一个连续统。例如，CogPrime和Sigma在概念上更接近于涌现系统，因为它们与神经网络有许多共同的属性。而REM、CHREST和RALPH以及3T和ATLANTIS，在很大程度上属于符号范式；因为这些架构主要是符号化的，虽然可以利用概率推理和学习机制。

4 感知（perception）

虽然早期的认知结构主要侧重于高层次的推理，但同样重要的是感知和行为。

感知可以定义为将原始输入数据转换为系统内部表示以执行认知任务的过程。根据输入数据的来源和性质可以区分多种感知模式。例如，最常见的五种是视觉、听觉、嗅觉、触觉和味觉；其他的感觉包括本体感觉、热感、痛觉、时间感等。

当然，认知结构也实现了其中的一些与人类感官无关的符号输入（使用键盘或图形用户界面（GUI））和各种传感器（激光雷达、激光、红外等）。根据其认知功能，智能系统可以将各种数量和类型的数据作为感知输入。

因此，本节将研究使用各种数据输入，从这些数据源中提取信息以及如何应用这些信息的认知体系。图4中的将调研结果进行了可视化。

图2：视觉（V）、听觉（A）、触觉（T）、嗅觉（S）、本体感觉（P）、数据输入（D）、其他传感器（O）和多模态（M）

从图2的可视化中可以观察到如下情况。例如，视觉是最常用的实现方式，然而，超过一半的体系使用模拟进行视觉输入，而不是摄像机。触觉和本体感觉等方式主要用于物理体现的设计。有些感知未被充分探索，例如嗅觉只在三种体系中出现（GLAIR、DAC和PRS0）。总的来说，符号范式在设计上具有有限的感知能力，并且倾向于使用直接的输入数据作为唯一的信息来源（参见图的左侧）。另一方面，混合范式和涌现范式（主要位于右半部分图中的）使用模拟和物理传感器实现更广泛的感知模式。然而，不管其来源如何，传入的感知数据通常不能以原始形式使用（除了符号输入之外），往往需要进一步处理。下面将讨论在认体系中如何进行有效且充分的感知处理。

4．1视觉（vision）

长期以来，视觉是主要的感知模态，虽然最近的研究建议更平衡的感知体验观［17］，但认知结构的研究仍然以视觉为中心，相对也是研究最多的感知模态。尽管在机器人技术中，各种非视觉传感器（如声纳、超声波距离传感器）和本体感觉传感器（如陀螺仪、圆规）被用于解决诸如导航、避障和搜索等视觉任务，但视觉输入占所有可能输入模式的一半以上。根据Marr［18］的说法，视觉处理通常包括了三个不同的阶段：早期、中期和晚期。早期视觉技术是数据驱动的，涉及到对视觉场景的并行处理，提取简单的元素，如颜色、亮度、形状、运动等。中期视觉技术将元素分组到区域中，然后在后期进行进一步处理，以识别对象，并使用可用的知识赋予它们意义。尽管Marr没有提到，但视觉注意机制、情感和奖励也会影响视觉处理的各个阶段［19］。因此，感知和认知在各个处理阶段都是紧密关联的。

在认知体系中，基于图像理解的视觉处理是分阶段进行的【20】。这些阶段包括：1）强度－位置－时间值的检测和分组（产生边缘、区域、流向量）；2）边缘、区域等的进一步分组（产生表面、体积，边界、深度信息；3）对象识别及其运动识别；4）为实体建立以对象为中心的表示；5）基于任务为对象分配标签；6）时空推断实体之间的关系。在这里，只有阶段1代表Marr三阶段理论的早期阶段，所有后续阶段都需要一个附加的任务或世界知识。已经在第2阶段，特征的分组可以由被观察的特定对象的视点信息和知识来促进。最后，后期阶段对从早期和中间处理结果中抽象出来的高级表示进行推理和操作。

值得注意的是，在许多图像理解的研究中通过执行了隐式深度学习方法而实现的。在最近几年中，我们已经看到了深度学习在图像处理和自然语言处理很多卓越表现，然而令人惊讶的是很少认知架构使用它。在CogPrime、LIDA、SPA和BECCA中可以找到深度学习在简单视觉任务中的一些应用。

图5显示真实视觉和模拟视觉执行处理的各个阶段。真实视觉系统只接收像素级的输入，而没有附加信息（如摄像机参数、物体的位置和特征等）。图像本身由相机生成，但体系结构不需要连接到物理相机。模拟视觉系统通常忽略早期和中期处理阶段，并以适合视觉处理后期阶段的形式接收输入（例如形状和颜色的符号描述、对象标签、坐标等）。技术上，任何不支持真实视觉或其他感知模式的体系结构，都可以通过接口进行扩展，该接口将其连接到传感器或将原始数据预处理为更合适的格式（如Soar、ACT－R）。但图5仅仅显示执行了什么样图像解释阶段，而没有反映出这样处理的复杂性。

图5：这些阶段从早期到后期依次为：1）特征，2）原型对象，3）对象，4）对象模型，5）对象标签，6）空间关系

不同深浅的蓝色用来表示属于早期、中期和晚期视觉的过程。这个具有真实和模拟视觉的架构分别显示在左栏和右栏中。每列中的顺序按字母顺序排列。

4．2基于传感器的视觉（Vision using physical sensors）

大多数体系处理视觉各个阶段都是物理嵌入的，包括机器人控制、生物启发和仿生结构。早期视觉（步骤1）通常涉及边缘检测和视差估计。然后这些特征分组（步骤2）为具有类似特征（颜色、深度等）的东西，这些东西被解析为具有质心坐标的候选对象（步骤3）。使用离线方式学习对象模型（步骤4），并可用于对候选对象进行分类（步骤5）。

基于生物启发的体系也使用计算机视觉算法，并遵循类似的处理阶段。例如，用于目标检测的神经网络（RCS、DIARC、Kismet），用于对象识别的SIFT特征（DIARC），用于手部检测和跟踪的SURF特征、AdaBoost学习和高斯混合（iCub），用于识别人体并确定年龄性别的Kinect和结合支持向量机的LBP特征（RoboCog和CORTEX）。

在有些体系结构中，视觉与记忆、控制系统的联系更加紧密，视觉处理中的一些步骤与人类视觉系统有明显的相关性。其中一个例子是显著性【saliency？】，它根据视觉刺激的特征或与任务的相关性，对视觉刺激的优先级进行建模。因此，显著性被用来寻找场景中感兴趣的区域（Kismet、ARCADIA、DIARC、iCub、STAR）。自我球，一种在一些机器人结构中发现的结构，模拟了海马体在感觉信息和动作整合中的功能，尽管在生物学上不是合理的。本质上，自我球在机器人周围形成一个虚拟穹顶，突出的物体和事件被映射到上面。这个概念的各种实现包括在RCS、ISAC、iCub和MACSi中。

图2体系中的第三个亚组追求生物学上合理的视觉。其中一个最详细的例子是基于大脑腹侧通路解剖的Leabra视觉系统（LVis）。它模拟了初级视觉皮层（V1）、纹状体外区（V2、V4）和下颞叶皮层（IT）。这些区域中的计算大致对应于早期和中期处理步骤。LVis具有人类视觉系统的其他特征，例如在更高层次上的神经元的更大的感受野、层之间的相互联系以及限制跨层活动水平的反复抑制动力学。Darwin VIII（BBD）、SPA（Spaun）和ART的视觉系统也模仿了灵长类动物的腹侧视觉通路。

SASE架构并没有紧密地复制人类的视觉系统。相反，它使用具有局部连接的层次神经网络，每个神经元从前一层的限制区域获得输入。一层内的感受野大小相同，并且在较高的水平上增加。该系统在一个室内导航场景中的帆式机器人上进行了测试。MDB、BECCA和DAC中实现了类似的视觉方法。值得指出的是，尽管涌现范式没有显式地将标签分配给对象，但是它们能够形成场景中对象之间空间关系的某种隐式表示（比如向量表示），并将这些表示用于视觉导航等任务（BBD、BECCA、DAC、MDB、SASE）

4．3模拟视觉（Simulated vision）

从图2可以明显看出，大多数模拟只支持视觉处理的后期阶段。最简单的模拟是由物体填充的二维网格，例如ERE和PR使用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使用的二维迷宫和CLARION social agents设计的部落模拟。网格环境中的代理通常只能看到有限的周围环境，每个方向只能看到几个单元格。Blocks world是另一个经典领域，其一般任务是构建各种形状和颜色的块堆栈（ACT－R、ICARUS、MIDCA。

尽管它们的复杂性和目的不同，不同的模拟通常提供关于环境的相同类型的数据：对象、它们的属性（颜色、形状、标签等）、代理本身的位置和属性、对象和环境因素之间的空间关系（例如天气和风向）。这种模拟主要用作可视化工具，与直接输入的数据相差不大，因为几乎不需要任何感官处理。更高级的模拟将场景表示为具有角点颜色和三维坐标的多边形，这些角点必须进一步处理以识别对象（Novamente）。否则，3D模拟的视觉真实性主要是为了美学和感官，因为信息是直接以符号形式提供的（例如CoJACK，Pogamut）。

如前所述，图2并不反映个体体系的环境或能力的复杂性差异。然而，在体现认知结构的环境之间的大小和真实性。例如，ATLANTIS控制的行星漫游者在户外岩石地形中进行越野导航。销售机器人Gualzru（CORTEX）在一个满是人的大房间里移动，iCub（MACsi）从桌子上识别并捡起各种玩具。另一方面，简单即没有障碍的环境也被用于认知结构研究（BECCA，MDB）。此外，颜色编码对象是简化视觉处理的常用方法。例如，ADAPT跟踪一个红色在桌子上滚动的球和DAC将自己朝向标记有不同颜色的目标。此外，大多体系的应用只能识别少数不同的对象类别。只有Leabra能够区分几十个对象类别。随着OpenCV、Cloud Point Library或Kinect API等可用软件工具包的普及，可视化处理的质量大大提高。但在试图建立通用的生物学意义上的视觉系统模型，并没有取得太多进展。目前，应用仅限于受控环境。

4．4听觉（Audition）

听觉是认知体系中一种常见的模态，因为语音命令常常是用于指导智能系统或与之通信。由于听觉模态是纯功能性的，许多体系结构使用可用的语音到文本软件而不是开发听觉模型。为数不多的进行了听觉感知建模的体系包括了ACT－R、SPA和EPIC。例如，ARTWORD和ARTSTREAM被用来研究音位整合和音源隔离（鸡尾酒会问题）。基于ACT－R发展了一个音乐解释模型。

使用专用软件进行语音处理和通信有助于实现复杂性和现实主义。例如，在机器人应用中，它允许销售机器人编写脚本在拥挤的房间里与人互动（CORTEX）或对话英语的子集（CoSy）。一个更高级的应用包括使用语音识别来完成这个任务通过电话向公共图书馆订购书籍（FORR）。使用现成语音的其他系统处理软件包括PolyScheme和ISAC。在选择的体系中，大部分工作都是针对自然语言处理，即语言和语音所承载的语义信息，很少有人注意到据情感内容（如响度、语速和语调）。在这个方向上的一些尝试都是社会机器人。例如，社交机器人Kismet不明白人们在说什么，但它可以根据演讲的韵律轮廓来确定赞同、禁止或安慰。这个Ymir体系结构还具有韵律分析器和基于语法的语音识别器，可以理解100个单词的有限词汇。甚至声音本身也可以作为线索，例如，BBD机器人可以将自己定向到一个响亮的声音源。

4．5符号输入（Symbolic input）

符号输入结合了几种不同于物理传感和仿真模拟的输入，包括了文本命令、数据以及通过GUI的输入。文本是用于执行规划和逻辑推理任务的典型输入形式（例如：NARS ， OSCAR ， MAX ， Homer ）。文本命令通常是根据体系结构中使用的基元谓词编写的，因此不需要额外的解析。

4．6 多模态感知

在前面各节中，单独考虑了各种的感知模式。然而，在现实中人脑从不同的感官接收到源源不断的信息流，并将其整合成一个关联的世界表征。认知结构也是如此，因为近一半的认知结构有两种及以上不同的感知模式（图1）。并非所有这些模式可能出现在一个单一的体系中，大多数体系同时使用两种不同的模式，例如视觉和听觉、视觉和符号输入或视觉和距离传感器。除了少数例外，这些体系结构基本上执行了认知科学中的特征集成或机器人学中的传感器数据融合。显然，可以使用不同的传感器，而不必显式地组合它们的输出。

多感知通过互补和冗余提高感知的稳健性，但在实践中，使用许多不同的传感器会带来许多挑战，例如不完整或虚假或冲突的数据、具有不同属性的数据（例如维度或值范围）、对数据对齐和关联的需要等。机器人研究领域对这些实际问题进行了深入的研究，但是还没有提出通用的解决方案。每个解决方案都必须为特定的应用程序定制，这是大多数认知架构采用的一种普遍做法。不幸的是，文献中很少有技术信息来确定所使用的确切技术，并将它们与已建立的分类法联系起来。

总的来说，传感器集成的特定实现依赖于用于推理和任务的知识表示。在典型的具有符号推理的体系结构中，来自不同传感器的数据被独立地处理，并映射到以代理为中心的3D地图上，该地图可用于导航（CaRACAS ， CoSy）。在社会机器人的应用中，世界的表现形式可以是一个围绕着主体的自我球体，它包含以自我为中心的坐标和视觉检测对象的属性，这些都与通过三角测量确定的声音位置相关联（ISAC，MACsi）。

RCS，一个具有层次结构的模型，在每个层次上都有一个具有相应世界表示的感知处理模块（例如：像素图、3D模型、状态表等）。有些体系隐式地执行数据关联和对齐，即传感器数据和特征提取（例如，来自摄像机的物体坐标和来自激光的障碍物距离）是独立进行的。然后将提取的信息直接添加到工作内存。任何模棱两可和不一致都可以通过高阶推理过程来解决。这是分布式体系结构中的一种常见方法，其中独立模块同时为实现一个共同目标而工作（例如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA）。

在许多受生物启发的体系中，不同传感器的读数之间的关联被学习。例如，DAC使用Hebbian学习来建立数据对齐，以便将不同感知模式的神经表示映射到一个共同的框架，模拟大脑上丘的功能。ART通过神经融合（ARTMAP网络）将视觉和超声波感官信息集成到移动机器人导航中。同样，MDB使用神经网络从传感器输入学习世界模型，并使用遗传算法调整网络参数。

目前为止提到的所有方法都有一些相似的传感集成，因为都使用空间和时间的接近或学习来消除多模态数据的歧义。但总的来说，只有很少的体系在感知层面上追求生物逼真度。唯一的一个在生物学上看似合理的感知集成模型是用基于大脑的设备（BBD）体系，被称为Darwin XI的具体神经模型是用来研究多感觉信息（来自触摸传感器、激光、相机和磁罗盘）的整合和在迷宫导航中的海马体［163］。Darwin XI的神经网络由大约80000个神经元和120万个突触组成，并模拟50个神经区域。在损伤研究中，通过去除一个或多个感觉输入并重新映射感觉神经元单元，证明了系统的鲁棒性。

一般来说，很多认知体系在很大程度上忽略了跨模态交互作用。这些体系，包括面向生物和面向认知的，在处理不同的感知模式时通常采用模块化的方法。同时，在过去几十年中进行的许多心理和神经成像实验表明，不同的感知相互影响。例如，视觉改变听觉处理，反之亦然。然而，据我们所知，一些仿生体系，如上文提到的BBD，可能代表跨模态效应，这个问题还有待调研。

认知体系作为AI的一个重要分支，它的分类有哪些？

库卡KUKA机器人

安川机器人

精选资讯更多

相关资讯更多

热门搜索

在线客服

新闻投稿

联系电话