LLM 如何开创机器人技术的新时代

LLM 如何开创机器人技术的新时代

最近几个月,越来越多的项目使用大型语言模型(LLM)来创建以前似乎不可能的机器人应用程序。由于LLM和多模态模型的强大功能,研究人员正在创建可以处理自然语言命令并完成需要复杂推理的任务的机器人。

对LLM和机器人技术交叉点的兴趣日益浓厚,也恢复了机器人创业社区的活动,几家公司获得了巨额资金,并发布了令人印象深刻的演示。

随着LLM的惊人进步正在蔓延到现实世界,我们可能会看到机器人技术的新时代。

用于感知和推理的语言模型

创建机器人系统的经典方法需要复杂的工程工作来创建规划和推理模块。创建有用的界面来与机器人交互也很困难,因为人们可以用许多不同的方式说出相同的指令。

随着 LLM 和视觉语言模型 (VLM) 的出现,机器人专家能够以前所未有的方式增强现有的机器人系统。朝着这个方向迈出的第一步是 Google Research 的一个项目 SayCan。SayCan使用LLM中编码的语义知识来帮助机器人推理任务,并确定哪些动作序列可以帮助完成任务。

“SayCan是关于机器人技术的最具影响力的论文之一,”人工智能和机器人研究科学家Chris Paxton告诉VentureBeat。“从系统的角度来看,SayCan的一个好处是它非常模块化。它让你把不同的部分放在一起,构建一个可以做很酷的演示的系统,它立即变得非常引人注目。

在SayCan之后,其他研究人员开始探索语言和视觉模型在机器人技术中的应用,社区已经能够在不同的方向上取得进展。一些项目使用通用 LLM 和 VLM 来支持机器人应用程序,而另一些项目则尝试为机器人任务定制现有模型。

“我们已经看到,使用大型语言模型和大型视觉模型使感知和推理等事情更容易获得,”帕克斯顿说。“这让很多机器人任务看起来比以前更可行。

将现有功能串联在一起

经典机器人系统的一大局限性是控制它们。机器人团队可以训练机器人的个人技能,例如打开门和抽屉或拾取和操作物体。然而,训练机器人结合这些技能来完成复杂的任务是很困难的。这就是为什么它们通常非常僵化并且需要明确的指令来执行复杂的任务。

VLM 和 LLM 使机器人能够将松散定义的指令映射到机器人技能范围内的特定任务序列。有趣的是,许多前沿模型可以在不需要训练的情况下完成这些任务。

“我可以掌握这些不同的技能,通过这些大型语言模型,我可以将它们串在一起,并推理我应该如何使用它们,”帕克斯顿说。“通过像GPT-4V这样的新视觉语言模型,我们可以看到这些系统如何结合在一起,并在广泛的应用中发挥作用。”

一个例子是GenEM技术,这是由多伦多大学、Google DeepMind和Hoku Labs开发的一种技术。GenEM利用大型语言模型中可用的大量社会背景来为机器人创建表达行为。GenEM 使用 GPT-4 对环境进行推理,并根据机器人的可负担性确定它应该从事什么样的行为。例如,LLM确定向人们点头以承认他们的存在是礼貌的。然后,它将其转换为机器人支持的特定操作,例如上下移动头部。它利用其训练数据中包含的大量知识以及上下文学习能力来做到这一点,这使它能够将操作映射到机器人的 API 调用。

另一个项目是OK-Robot,这是一个由Meta和纽约大学创建的系统,它将VLM与运动规划和对象操作模块相结合,在机器人从未见过的环境中执行拾取和放下操作。

随着语言模型能力的不断增强,一些机器人初创公司正在重新获得成功。例如,总部位于加州的机器人初创公司Figure最近筹集了6.75亿美元,用于制造由视觉和语言模型驱动的人形机器人。该公司的机器人使用OpenAI模型来分析指令并计划其行动。

然而,需要注意的是,虽然 LLM 和 VLM 解决了重要问题,但这些机器人团队仍然必须为原始技能创建系统,例如抓取和移动物体、避开障碍物和导航环境。

“还有很多其他工作在这些模型无法处理的级别上进行,”帕克斯顿说。“这是很难做到的事情。在很多方面,这是因为数据不存在。这就是所有这些公司正在建立的东西。

专用基础模型

使用 LLM 和 VLM 的另一种方法是为机器人开发专门的基础模型。这些模型通常建立在预训练模型中包含的大量知识之上,并针对机器人操作定制其架构。

在这方面最重要的项目之一是谷歌的RT-2,这是一种视觉语言动作(VLA)模型,它将感知数据和语言指令作为输入,并直接将动作命令输出到机器人。

Google DeepMind最近创建了RT-X-2,这是RT-2的更高级版本,可以适应不同类型的机器人形态,并且可以执行其训练数据中未包含的任务。RT-Sketch是DeepMind和斯坦福大学的合作项目,将粗略的草图转化为机器人的行动计划。

“这是一种不同的方法,该模型现在是一项可以做任何事情的巨大政策,”帕克斯顿说。“这是另一个令人兴奋的方向,它基于端到端的学习,你拿一个摄像头,机器人就会弄清楚它需要做什么。

机器人的基础模型也进入了商业领域。今年3月,Covariant宣布推出RFM-1,这是一个80亿参数的变压器模型,基于文本、图像、视频、机器人动作和一系列数值传感器读数进行训练。协变旨在创建一个基础模型,可以解决不同类型机器人的许多任务。

在 Nvidia GTC 上宣布的 Project GR00T 是一种通用基础模型,它使人形机器人能够将文本、语音、视频甚至现场演示作为输入,并对其进行处理以采取特定的一般操作。

语言模型仍然有很多未开发的潜力,并将继续帮助机器人研究人员在基本问题上取得进展。随着LLM的不断进步,我们可以期待他们的结果将带来机器人技术的创新。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5916.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

Nvidia 扩展了基于 Ampere 的 GPU,用于 AI 设计和生产力应用

下一篇

Zendesk 推出 AI 驱动的 CX 平台,配备先进的座席和智能副驾驶

微信公众号

微信公众号