【无标题】ICCV 2023 | CAPEAM:基于上下文感知规划和环境感知记忆机制构建具身智能体

news/2024/3/5 5:29:19/文章来源:https://blog.csdn.net/hanseywho/article/details/133385013

文章链接: https://arxiv.org/abs/2308.07241

2023年,大型语言模型(LLMs)以及AI Agents的蓬勃发展为整个机器智能领域带来了全新的发展机遇。一直以来,研究者们对具身智能(Embodied Artificial Intelligence)的要求就是通过创建软硬件结合的智能体(例如不同形态的机器人),使其在各种真实物理环境中来执行各种各样的复杂任务,完成人工智能的进化过程。依靠LLMs强大的语言理解和推理能力,可以极大的提升具身智能机器人的工作效率。

本文介绍一篇被计算机视觉顶会ICCV 2023录用的论文,针对现有机器人在环境导航以及与环境目标交互时经常犯错的问题,提出了一种上下文感知规划和环境感知记忆(Context-Aware Planning and Environment-Aware Memory)的具身智能框架CAPEAM,CAPEAM通过设计一系列的代理来将语义上下文(语言指令、交互的对象信息等)纳入机器人的规划序列中,同时考虑交互物体的空间布局和状态变化(例如,物体已移动到的位置),以推断后续行动。基于这样的设计,CAPEAM的代理程序可以在标准的机器人交互指令基准上达到SOTA性能。

01. 介绍

具身智能机器人在工业制造、快递物流、智能家居、高危环境救援等多种场景中都具有良好的应用前景,为了进一步提高工作效率,研究者们开始思考能否制造一种可以精确理解人类语言指令,同时具有自我路径规划和动作执行能力的具身智能机器人呢。为了完成用户指定的各种特定任务,机器人代理首先需要对任务指令进行拆分,并规划出完整的行动序列,其中涉及到与任务特定的相关对象进行交互。然而难点在于,简单的代理程序可能会规划出一些错误行动,例如与任务无关的对象进行交互。例如,如果用户指定任务“把苹果切片放在桌子上”,普通的代理可能会驱动机器人拿起面包片放到桌子上,本文作者认为,出现这种现象的主要原因是这种代理缺乏对任务指令以及当前环境的上下文记忆。

为了解决这个问题,本文作者提出了一种新的CAPEAM方法,将任务规划过程分为两个不同的阶段,首先对任务指令进行拆解并构建上下文信息(指令中涉及到需要交互的对象),随后再根据上下文记忆进行详细行动规划。如上图所示,CAPEAM首先提取任务指令中的上下文对象,随后以这些对象为中心组合出各种可能的子行动目标,再根据细节规划器(Detailed Planners)得到最终的行动序列

此外作者还考虑到交互对象的状态变化对于任务的正确完成也至关重要,如果代理程序不能及时的跟踪目标的状态(例如,对象是否已被移动),就会导致后续错误的交互。例如上图所示的“将苹果和盘子放在柜子里”任务中,如果代理首先移动了苹果,但是没有记录苹果的新位置信息,在移动盘子时有可能将盘子直接放在苹果上而导致任务失败。因此作者引入了一个环境感知存储器来存储有关对象状态的信息,这种方法允许代理随着时间的推移与处于适当状态的对象进行交互。通过跟踪对象状态和外观,代理可以确保与正确的对象进行交互并执行适当的操作,最终成功地完成任务。

02. 本文方法

本文提出的CAPEAM框架主要由两个关键模块构成,其整体框架如下图所示,作者分别引入了上下文感知规划模块和环境感知记忆模块,前者可以根据用户指令对任务有关的对象进行上下文建模,后者通过将目标对象状态和环境信息存储在对象掩码和空间记忆池中,实现更加高效的场景导航和物体交互。

2.1 上下文感知规划模块

在接收到用户指定的自然语言指令后,代理程序需要快速的理解和推断出给定任务的要求(例如抓取用户感兴趣的目标对象),随后制定出一个完整的动作序列。为此,作者提出了一种新颖的规划方案,即先将指令拆分成多个“子目标”集合,再在每个子目标的基础上扩展成可以执行的“详细动作序列”。为了保证最终动作序列的合理性,作者在拆分子目标时加入了纠错机制。例如通过上下文预测器(Context Prediction)预测得到当前任务共享的一组任务相关对象,随后与指令拆解得到的上下文信息联合生成子目标集合。随后再通过细节规划器为每个子目标制定结束动作和交互对象。

2.1.1 子目标规划器

2.1.2 细节规划器

2.2 环境感知记忆模块

下图展示了环境感知记忆模块的构成细节,代理程序首先根据输入的RGB图像预测得到的深度图像和语义分割图像来构建语义空间图(Semantic Spatial Map),使用深度信息可以更全面的探索周围环境状态,例如障碍物区域、物体位置和类别等。

在一些任务中,机器人可能需要在多个不同的时间步中与同一对象进行交互,在这期间,对象的视觉外观可能由于各种原因(例如遮挡)而改变,因此作者设计了物体回顾识别操作(Retrospective Object Recognition)来对每一时刻的物体mask进行更新,保证多次交互顺利进行。与该操作协同工作的还有对象重定位跟踪(Object Relocation Tracking)操作,其对每个已被移动的目标坐标进行动态更新,这保证代理程序不会对同一目标做出重复的子目标规划。为了减少代理程序对周围环境执行全局扫描的次数,作者使用对象位置缓存操作(Object Location Caching)对每个发生状态变化的对象都进行了空间信息缓存,这使得代理可以记忆每个目标的实际位置,从而实现更加高效的导航和交互。

03. 实验效果

本文的实验在一个极具挑战性的交互式指令基准ALFRED[2]上进行,ALFRED分为训练集、验证集和测试集三部分,为了评估本文方法的泛化能力,作者将验证集和测试集进一步划分为两个部分:可见环境(seen)和不可见环境(unseen)。模型的评价指标遵循ALFRED的标准评估协议。主要指标是成功率,用SR表示,主要衡量模型完成任务的百分比,另一个指标是目标条件成功率,用GC表示,用于衡量满足目标条件的百分比

作者首先将本文提出的CAPEAM方法与现有的SOTA方法进行对比,对比结果如下表所示,为了对比公平,作者选取了一些同样构建语义空间表征和进行深度估计的方法,其中一些方法使用了高级的任务指令(✗ Low Inst.),并且使用了环境的先验信息和动作模板(✓ Tem. Act.)来生成动作序列。

从上表可以看出,CAPEAM方法在unseen测试中的成功率优于其他所有对比方法,这表明本文方法具有更强的新环境适应能力。在seen测试中,CAPEAM的表现略逊色于Prompter方法[3],作者认为,这是由于Prompter方法中加入了更加精确的空间感知模型来对每个目标的姿态进行了精确估计,这使得模型在训练可见的场景中有更好的表现能力。但是这一现象也侧面展示了本文方法在seen和unseen测试环境之间具有更小的性能差距,表示本文方法可以更好地泛化到未见环境中。

04. 总结

本文提出了一种新型的具身智能代理框架CAPEAM,其中设置了上下文感知规划模块和环境感知记忆模块来将语言任务指令中涉及到的上下文对象纳入动作规划操作中,并且对关键的目标对象进行外观、空间位置等信息的动态更新。通过这些操作,CAPEAM有效的避免了不必要的空间搜索,并且设计了一种从粗到细的子目标动作序列生成机制来改进机器人的整体导航和交互效果。作者通过一系列的实验表明,CAPEAM方法可以有效地提升具身智能代理在不同环境中的快速适应能力,这应该是当前具身智能领域所关注的研究热点。

参考

[1] Alexander Katrompas and Vangelis Metsis. Enhancing lstm models with self-attention and stateful training. In IntelliSys, 2022.

[2] Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, and Dieter Fox. Alfred: A benchmark for interpreting grounded instructions for everyday tasks. In CVPR, 2020.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ldbm.cn/p/138319.html

如若内容造成侵权/违法违规/事实不符,请联系编程新知网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3+eleement plus日历选择季度

<template><div class"el-quarter-wrap"><el-popover width"280" v-model"visible"><template #reference><el-input v-model"quarterDate" placeholder"请选择季度" clearable :prefix-icon&qu…

ESP32IDF — 硬件I2C使用教程

前言 &#xff08;1&#xff09;最近刚做完ESP32的一个模块的驱动移植&#xff0c;使用到了I2C。感觉ESP32的硬件I2C还是挺容易使用的。 &#xff08;2&#xff09;本文将只会介绍ESP32的硬件I2C使用&#xff0c;如果想知道软件I2C使用&#xff0c;可看其他的任意一款芯片软件I…

【李沐深度学习笔记】损失函数

课程地址和说明 损失函数p2 本系列文章是我学习李沐老师深度学习系列课程的学习笔记&#xff0c;可能会对李沐老师上课没讲到的进行补充。 损失函数 损失函数是用来衡量预测值 y ^ \hat{y} y^​或 y ′ y y′与真实值 y y y的差别&#xff0c;下面给出常见的损失函数类型&am…

Docker-Windows安装使用

1.下载docker https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors 2.配置虚拟化环境 通过控制面板“设置”启用 Hyper-V 角色 右键单击 Windows 按钮并选择“应用和功能”。选择相关设置下右侧的“程序和功能”。选择“打开或关闭 Windows 功能”。选择“Hyper-…

节日灯饰灯串灯出口欧洲CE认证办理

灯串&#xff08;灯带&#xff09;&#xff0c;这个产品的形状就象一根带子一样&#xff0c;再加上产品的主要原件就是LED&#xff0c;因此叫做灯串或者灯带。2022年&#xff0c;我国灯具及相关配件产品出口总额超过460亿美元。其中北美是最大的出口市场。其次是欧洲市场&#…

平台登录页面实现(一)

文章目录 一、实现用户名、密码、登录按钮、记住用户表单1、全局css代码定义在asserts/css/global.css 二、用户名、密码、记住用户的双向绑定三、没有用户&#xff0c;点击注册功能实现四、实现输入用户名、密码、点击登录按钮进行登录操作五、实现表单项校验六、提交表单预验…

git报错:Failed to connect to 127.0.0.1 port 1080

Bug描述 由于在试了网上的这条命令 git config --global http.proxy socks5 127.0.0.1:1080 git config --global https.proxy socks5 127.0.0.1:1080git config --global http.proxy 127.0.0.1:1080 git config --global https.proxy 127.0.0.1:1080Bug描述&#xff1a;Faile…

《Upload-Labs》01. Pass 1~13

Upload-Labs 索引前言Pass-01题解 Pass-02题解总结 Pass-03题解总结 Pass-04题解 Pass-05题解总结 Pass-06题解总结 Pass-07题解总结 Pass-08题解总结 Pass-09题解 Pass-10题解 Pass-11题解 Pass-12题解总结 Pass-13题解 靶场部署在 VMware - Win7。 靶场地址&#xff1a;https…

性格孤僻怎么办?改变性格孤僻的4种方法

性格孤僻是比较常见的说法&#xff0c;日常中我们说某人性格孤僻&#xff0c;意思就是这人不太合群&#xff0c;喜欢独来独往&#xff0c;话少&#xff0c;人际关系不太好&#xff0c;其言行往往不符合大众的价值观。从性格孤僻的角度来看&#xff0c;可能跟很多种心理疾病存在…

uniapp 实现下拉筛选框 二次开发定制

前言 最近又收到了一个需求&#xff0c;需要在uniapp 小程序上做一个下拉筛选框&#xff0c;然后找了一下插件市场&#xff0c;确实有找到&#xff0c;但不过他不支持搜索&#xff0c;于是乎&#xff0c;我就自动动手&#xff0c;进行了二开定制&#xff0c;站在巨人的肩膀上&…

经历网 微信二维码 制作方法

1、谷歌浏览器&#xff0c;打开要制作微信二维码的 网站页面 2、点击页面空白处&#xff08;此步为了使鼠标激活页面&#xff0c;可省&#xff09;&#xff0c;点击鼠标右键&#xff0c;弹窗 点选 为此页面创建二维码&#xff0c;点击下载到自己指定的地方。完成。 下载下来的…

【前段基础入门之】=>CSS 常用的字体文本属性

导读&#xff1a; 这一章&#xff0c;主要分享一些 CSS 中的一些&#xff0c;常用的 字体和文本方面的属性。 文章目录 字体属性字体大小字体族字体风格字体粗细字体复合写法 文本属性文本间距文本修饰文本缩进文本水平对齐行高vertical-align 字体属性 字体大小 属性名&…

inndy_echo

inndy_echo Arch: i386-32-little RELRO: Partial RELRO Stack: No canary found NX: NX enabled PIE: No PIE (0x8048000)32位&#xff0c;只开了NX int __cdecl __noreturn main(int argc, const char **argv, const char **envp) {char s; // [espCh…

麒麟信安服务器操作系统V3.5.2重磅发布!

9月25日&#xff0c;麒麟信安基于openEuler 22.03 LTS SP1版本的商业发行版——麒麟信安服务器操作系统V3.5.2正式发布。 麒麟信安服务器操作系统V3定位于电力、金融、政务、能源、国防、工业等领域信息系统建设&#xff0c;以安全、稳定、高效为突破点&#xff0c;满足重要行…

深度学习——模型选择、欠拟合和过拟合

深度学习——模型选择、欠拟合和过拟合 文章目录 前言一、训练误差和泛化误差1.1. 统计学习理论1.2. 模型复杂性 二、模型选择2.1. 验证集2.2. K折交叉验证 三、欠拟合 or 过拟合3.1. 模型复杂性3.2. 数据集大小 四、多项式回归4.1. 生成数据集4.2. 对模型进行训练和测试4.3. 三…

Elastic SQL 输入:数据库指标可观测性的通用解决方案

作者&#xff1a;Lalit Satapathy, Ishleen Kaur, Muthukumar Paramasivam Elastic SQL 输入&#xff08;metricbeat 模块和输入包&#xff09;允许用户以灵活的方式对许多支持的数据库执行 SQL 查询&#xff0c;并将结果指标提取到 Elasticsearch。 本博客深入探讨了通用 SQL …

数据链路层 MTU 对 IP 协议的影响

在介绍主要内容之前&#xff0c;我们先来了解一下数据链路层中的"以太网" 。 “以太网”不是一种具体的网络&#xff0c;而是一种技术标准&#xff1b;既包含了数据链路层的内容&#xff0c;也包含了一些物理层的内容。 下面我们再来了解一下以太网数据帧&#xff…

Transformers.js v2.6 现已发布

&#x1f92f; 新增了 14 种架构 在这次发布中&#xff0c;我们添加了大量的新架构&#xff1a;BLOOM、MPT、BeiT、CamemBERT、CodeLlama、GPT NeoX、GPT-J、HerBERT、mBART、mBART-50、OPT、ResNet、WavLM 和 XLM。这将支持架构的总数提升到了 46 个&#xff01;以下是一些示例…

ubuntu20安装nvidia驱动

1. 查看显卡型号 lspci | grep -i nvidia 我的输出&#xff1a; 01:00.0 VGA compatible controller: NVIDIA Corporation GP104 [GeForce GTX 1080] (rev a1) 01:00.1 Audio device: NVIDIA Corporation GP104 High Definition Audio Controller (rev a1) 07:00.0 VGA comp…

stable diffusion模型评价框架

GhostReview:全球第一套AI绘画ckpt评测框架代码 - 知乎大家好&#xff0c;我是_GhostInShell_&#xff0c;是全球AI绘画模型网站Civitai的All Time Highest Rated (全球历史最高评价) 第二名的GhostMix的作者。在上一篇文章&#xff0c;我主要探讨自己关于ckpt的发展方向的观点…