k的观测值对应的概率,观测值k的运算步骤

首页 > 上门服务 > 作者:YD1662023-11-29 00:44:59

本文约6700字,建议阅读10 分钟

假如AI能帮我策划一场说走就走的旅行。

k的观测值对应的概率,观测值k的运算步骤(1)

我们往往是根据事件的内容进行分层规划。无论是规划简单的事情(比如做晚餐)或复杂的事情(比如出国旅行),我们通常会率先在脑海中粗略地勾勒出想要实现的目标(比如去印度旅行完就回家,此处的目标为“旅行”与“回家”)。然后,我们会将初步想法逐步细化为一系列子目标(比如预订机票和打包行李)、子目标又再细化成更小的目标等等,直至落实到一连串的实际行动上,这比初步计划要复杂得多。

高效的规划需要具备一些抽象的高级别概念,这些概念被认为是分层规划(hierarchical plan)的精华。但是,人类是如何学习这些抽象概念的呢?这仍是未解之谜。

在本文中,我们揭示了人类自然地形成高级概念的过程,他们能够根据所处环境的任务、回报和系统安排进行高效地规划。我们的研究表明,这种行为与底层计算的形式化模型是一致的,从而将这些发现建立在既定的计算原则之上,并将其与先前的分层规划研究联系起来。

k的观测值对应的概率,观测值k的运算步骤(2)

分层规划示例

上图是一个层次规划的示例,即某人如何计划从剑桥的办公室出发去购买一件在印度巴特纳的梦幻婚纱。椭圆表示状态,箭头表示在状态之间转换的操作。下方的每个椭圆代表一组较低级别的状态。较粗的箭头表示高级状态之间的转换,人类往往先想到这些概念。

一、从贝叶斯的角度看

当分层规划应用于计算机智能体时,它可以使模型具有高级规划能力。从贝叶斯观点出发,分层表示可以通过假设某个特定环境的结构生成过程进行建模。目前关于这一问题的研究工作涉及到计算框架开发,用于在一系列关于层次结构的简化假设下获取层次表示,比如对人们为了提高规划效率、如何在头脑中创建无奖励环境的状态进行建模。

在这项工作中,我们提出了分层发现的贝叶斯认知模型。该模型结合了聚类知识和预测状态簇(cluster of states)形成的奖励。此外,我们将该模型与从人类规划中获取的相关数据进行了比较。

我们分析了静态奖励机制和动态奖励机制这两种情形,发现人类将奖励信息泛化到高级状态簇,并利用奖励信息创建状态簇。我们提出的模型可以预测奖励泛化和基于奖励的状态簇形成。

二、理论背景

心理学和神经科学相结合的一个重要体现是规范理解与指定动作相关的人类行为。我们经常会疑惑:人类采用了什么样的规划和方法论来完成某项任务?人类如何发现有用的抽象概念?

鉴于人类和动物适应新环境的独特能力,上述问题非常有趣。先前关于动物学习的文献表明,这种灵活性源于目标的层次化表示,可以将复杂的任务分解成在各种环境中扩展的低级子例程(low-level subroutines)。

2.1 分块法

分块过程指的是由一个个动作编织成时间拓展的动作序列以实现未来目标。分块法(chunking)通常是学习从目标导向系统(goal-directed system)转移到惯性系统(habitual system)的结果,用刻板方式执行智能体。

从计算的角度看,这种分层表示能使智能体在开环中快速执行动作,在遇到已知问题时重复执行熟悉的动作序列,通过调整既定的动作序列解决之前遇到的类似问题、从而更快地学习,并在延长的时间范围内进行规划。智能体不需要关心与目标达成相关的小型任务,例如去商店这个目标被分解为离开房间、步行和进入商店,而不是起床、左脚向前移动,然后右脚移动等等。

2.2 分层强化学习

智能体如何做出能获得奖励的决定是强化学习的主题。分层强化学习(HRL)已成为表示分层学习和规划的主流框架。在HRL建模的研究中,已有几项可能的模型构建方法提出。

我们关注的是人们自发地将环境变成约束规划行为的状态簇。这种分层规划包含了一个个低级别行动,迎合了人们有限的工作记忆能力,在时间和记忆上比简单的规划更为有效。

如下图所示,线条较粗的节点和边表示做规划必须考虑的、停留在短期记忆内的内容,用于对规划进行计算,而灰色箭头则表示簇的成员。我们观察到,在低级别图 G 中规划如何从状态 s 到状态 g 至少要花费与实际执行计划(下图上方)一样多的步骤,引入高级图 H 可以缓解此问题,从而降低计算成本(下图中间) ,同时扩展层次结构递归(hierarchy recursive),进一步减少规划所需的时间和记忆量(下图底部)。

k的观测值对应的概率,观测值k的运算步骤(3)

分层表示降低了规划的计算成本

Solway等人对最佳分层结构(optimal hierarchy)做出了一个正式的定义,但没有具体说明大脑是如何认识到最佳分层结构的[2]。我们假设最佳分层结构由环境构造决定,包括图结构与环境的可观察特征的分布(特别是奖励)。

三、模型

我们假设智能体将环境表示为一张图,其中节点表示环境中的状态,边表示状态之间的转换。这些状态和转换可以是抽象的,也可以像地铁站及站与站之间的列车线一样具体。

3.1 结构体系

我们将可观察的环境表示为图 G =(V,E),潜在分层表示为图H。G和H均为未加权的无向图。图H包含了状态簇(图G中的每个低级节点都恰好属于图H中的一个簇)以及连接这些簇的桥(bridge)或高级边。只有当某些 v,v'∈V 之间存在边,形成v∈k 和 v'∈k' 时,簇 k 和 k' 之间才能存在桥,比如图H中的每一条高级边在图G中都有一条相对应的低级边。

下图中,颜色表示簇分配。规划机器在做规划时主要考虑黑色边,忽略掉灰色边。粗边对应的是状态簇之间的转换,簇 w 和 z 之间的转换通过桥来实现。

k的观测值对应的概率,观测值k的运算步骤(4)

首页 1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.