博士驿站：连接全球智慧，共创博士人才生态圈 › 驿站总站 ›Dr.资讯 › 查看内容

大型语言模型最新进展:引入机器人，让机器人变得更聪明

2023-8-2 11:43| 发布者: admin| 查看: 594| 评论: 0|来自: 智东西

摘要: 机器人技术领域正悄然进行一场革命——将大型语言模型的最新进展引入机器人，让机器人变得更聪明，并具备新的理解和解决问题的能力。《纽约时报》技术专栏作家凯文·罗斯（Kevin Roose）在谷歌机器人部门观看了实际 ...

03.

泛化性能和紧急技能显著更好

研究人员在RT-2模型上进行了一系列定性和定量实验，进行了6000多次机器人试验。

在探索RT-2的新兴功能时，他们首先搜索了需要将web-scale数据的知识与机器人的经验相结合的任务，然后定义三类技能：符号理解、推理和人类识别。

每项任务都需要理解视觉语义概念以及执行机器人控制以操作这些概念的能力。需要诸如“捡起即将从桌子上掉下来的袋子”之类的命令，其中要求机器人对机器人数据中从未见过的物体或场景执行操作任务将知识从基于网络的数据转化为可操作的。

▲机器人数据中不存在的新兴机器人技能示例，需要通过网络预训练进行知识迁移。

在所有类别中，研究人员观察到与之前的基线（例如之前的RT-1模型和Visual Cortex（VC-1）等模型）相比，RT-2的泛化性能提高到3倍以上，这些模型是在大型视觉数据集上进行预训练的。

▲紧急技能评估的成功率：RT-2模型优于之前的RT-1和VC-1基线。

研究人员还进行了一系列定量评估，从最初的RT-1任务开始，在机器人数据中提供了示例，然后继续对机器人进行不同程度的以前未见过的物体、背景和环境，要求机器人从VLM预训练中学习泛化能力。

▲机器人以前未见过的环境示例，RT-2可以推广到新的情况。

RT-2保留了机器人数据中看到的原始任务的性能，并提高了机器人在以前未见过的场景上的性能，从RT-1的32%提高到了62%，展示了大规模预训练的巨大优势。

此外，研究人员观察到与仅视觉任务预训练的基线相比有显著改进，例如VC-1和机器人操作的Reusable Representations for Robotic Manipulation（R3M），以及用VLM进行对象识别的算法，例如Manipulation of Open-World Objects（MOO）。

▲RT-2在可见的分布内任务上实现了高性能，并且在分布外未见的任务上优于多个基线。

在机器人任务的开源Language Table套件上评估其模型，研究人员在模拟中实现了90%的成功率，高于之前的基线，包括BC-Z（72%）、RT-1（74%）和LAVA（77%）。

然后研究人员在现实世界中评估相同的模型（因为它是在模拟和真实数据上进行训练的），并展示了其泛化到新对象的能力，如下所示，其中除了蓝色立方体之外，没有任何对象出现在训练中数据集。

▲RT-2在真实机器人Language Table任务中表现良好。除了蓝色立方体之外，训练数据中不存在任何对象。

受大型语言模型中使用思维链提示方法的启发，研究人员探索其模型，将机器人控制与思维链推理相结合，以便能够在单个模型中学习长期规划和简易技能。

特别是，他们对RT-2的变体进行了几百个梯度步骤的微调，以提高其联合使用语言和动作的能力，然后对数据进行了扩充，添加了一个额外的“计划”步骤，首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标注。

这里，研究人员展示了这种推理和机器人的最终行为的示例：

▲思想链推理可以学习一个独立的模型，该模型既可以规划长期技能序列，又可以预测机器人的动作。

通过这一过程，RT-2可以执行更多复杂的命令，这些命令需要推理完成用户指令所需的中间步骤。得益于其VLM主干，RT-2还可以根据图像和文本命令进行规划，从而实现基于视觉的规划，而当前的计划和行动方法（如SayCan）无法看到现实世界并完全依赖于语言。

04.

结语：机器人制造和编程控制方式

的重大飞跃

多年来，研究人员们一直试图让机器人具有更好的推理能力，以解决如何在现实生活环境中生存的问题。以前，训练机器人需要很长时间。研究人员必须单独制定方向。但借助RT-2等VLA模型的强大功能，机器人可以获取更多信息来推断下一步该做什么。

加州大学伯克利分校机器人学教授肯·戈德堡（Ken Goldberg）说，机器人的灵巧程度仍达不到人类的水平，在一些基本任务上也表现不佳，但谷歌利用AI大型语言模型赋予机器人新的推理和即兴创作技能，这是一个有希望的突破。

谷歌没有立即计划销售RT-2机器人或更广泛地发布它们，但其研究人员相信这些配备新语言的机器最终将不仅仅用于室内魔术，具有内置语言模型的机器人可以放入仓库、用于医药，甚至可以用作家庭助理——折叠衣物、从洗碗机中取出物品、在房子周围收拾东西。

Google DeepMind机器人技术主管文森特·范霍克（Vincent Vanhoucke）认为，这确实开启了在有人所在的环境中使用机器人的大门——在办公室环境中，在家庭环境中，在所有需要完成大量体力任务的地方。

当然，在杂乱无章的物理世界中移动物体，比在受控实验室中移动物体要困难。人类本能地知道该如何清理泼到桌上的饮料，但机器人需要更多的指令才能去做这项看似轻而易举的工作。

鉴于AI大型语言模型经常犯错误或发明无意义的答案，将它们用作机器人的大脑可能会带来新的风险。但戈德堡教授说，这些风险仍然很小。“我们并不是在谈论让这些东西失控，”他说，“在这些实验室环境中，他们只是试图在桌子上推一些物体。”

谷歌方面表示，RT-2配备了大量安全功能。除了每个机器人背面都有一个红色大按钮（按下按钮后机器人会停止在轨道上）之外，该系统还使用传感器来避免撞到人或物体。

RT-2内置的AI软件有自己的保护措施，可以用来防止机器人做出任何有害的事情。例如，谷歌的机器人经过训练后不会拿起装有水的容器，因为如果水溢出，它们的硬件可能会损坏。

谷歌的RT-2机器人并不完美。在实际演示中，它把一罐柠檬味苏打水的味道错猜成“橘子味”。还有一次被问到桌子上有什么水果时，机器人回答成“白色”，而正确答案是香蕉。谷歌发言人解释说，该机器人使用了缓存的答案来回答之前测试者的问题，因为它的Wi-Fi曾短暂中断过。

但瑕不掩瑜。RT-2不仅是对现有VLM模型的简单而有效的修改，而且还展示了构建通用物理机器人的前景，该机器人可以推理、解决问题和解释信息，以在现实世界中执行各种任务。

在大型语言模型研究的启发下，机器人正变得更加智能。

【文章来源】智东西；特别声明：以上内容(如有图片或视频亦包括在内)来自网络，已备注来源；本平台仅提供信息和存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by user of ASKAI, which is a social media platform focused on technology of CHATGPT and only provides information storage services.

12 / 2 页