大模型+机器人，详尽的综述报告来了，多位华人学者参与

图片来源：由无界 AI‌生成

大模型的出色能力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人领域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

预训练的大型语言模型（LLM）、大型视觉 - 语言模型（VLM）、大型音频 - 语言模型（ALM）和大型视觉导航模型（VNM）可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域，机器人社区最近已经开始探索将这些大模型用于感知、预测、规划和控制等机器人领域。

近日，斯坦福大学和普林斯顿大学等多所大学以及英伟达和 Google DeepMind 等多家企业的一个联合研究团队发布了一篇综述报告，总结了基础模型在机器人研究领域的发展情况和未来挑战。

论文地址：https://arxiv.org/pdf/2312.07843.pdf
论文库：https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

团队成员中有很多我们熟悉的华人学者，包括朱玉可、宋舒然、吴佳俊、卢策吾等。

在范围广泛的大规模数据上预训练的基础模型在微调之后可以适用于多种多样的下游任务。基础模型已经在视觉和语言处理方面取得了重大突破，相关模型包括 BERT、GPT-3、GPT-4、CLIP、DALL-E 和 PaLM-E。

在基础模型出现之前，用于机器人的传统深度学习模型的训练使用的都是为不同任务收集的有限数据集。相反，基础模型则是会使用大范围多样化数据进行预训练，在其他领域（比如自然语言处理、计算机视觉和医疗保健）的应用证明了其适应能力、泛化能力和总体性能表现。最终，基础模型也有望在机器人领域展现出自己的潜力。图 1 展示了基础模型在机器人领域的概况。

相比于针对特定任务的模型，从基础模型迁移知识有可能减少训练时间和计算资源。尤其是在机器人相关领域，多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征，而这正是机器人理解和推理所需的。其学习到的表征可望用于自动化技术栈的任何部分，包括感知、决策和控制。

不仅如此，基础模型还能提供零样本学习能力，也就是让 AI 系统有能力在没有任何示例或针对性训练的前提下执行任务。这能让机器人将所学知识泛化到全新的用例，增强机器人在非结构化环境中的适应能力和灵活性。

将基础模型整合进机器人系统能提升机器人感知环境以及与环境交互的能力，有可能实现上下文感知型机器人系统。

举个例子，在感知领域，大型视觉 - 语言模型（VLM）能够学习视觉和文本数据之间的关联，从而具备跨模态理解能力，从而辅助零样本图像分类、零样本目标检测和 3D 分类等任务。再举个例子，3D 世界中的语言定基（language grounding，即将 VLM 的上下文理解与 3D 现实世界对齐）可以通过将话语与 3D 环境中的具体对象、位置或动作关联起来，从而增强机器人的空间感知能力。

在决策或规划领域，研究发现 LLM 和 VLM 可以辅助机器人规范涉及高层规划的任务。

通过利用与操作、导航和交互有关的语言线索，机器人可以执行更加复杂的任务。比如对于模仿学习和强化学习等机器人策略学习技术，基础模型似乎有能力提升数据效率和上下文理解能力。特别是语言驱动的奖励可通过提供经过塑造的奖励来引导强化学习智能体。

另外，研究者也已经在利用语言模型来为策略学习技术提供反馈。一些研究表明，VLM 模型的视觉问答（VQA）能力可以用于机器人用例。举个例子，已有研究者使用 VLM 来回答与视觉内容有关的问题，从而帮助机器人完成任务。另外，也有研究者使用 VLM 来帮助数据标注，为视觉内容生成描述标签。

尽管基础模型在视觉和语言处理方面具备变革性的能力，但对于现实世界的机器人任务来说，基础模型的泛化和微调依然颇具挑战性。

这些挑战包括：

1) 缺少数据：如何为机器人操作、定位、导航等机器人任务获取互联网规模级的数据，以及如何使用这些数据执行自监督训练；

2) 巨大的差异性：如何应对物理环境、实体机器人平台和潜在的机器人任务的巨大多样性，同时保持基础模型所需的通用性；

3) 不确定性的量化问题：如何解决实例层面的不确定性（比如语言歧义或 LLM 幻觉）、分布层面的不确定性和分布移位问题，尤其是闭环的机器人部署引起的分布移位问题。

4) 安全评估：如何在部署之前、更新过程中、工作过程中对基于基础模型的机器人系统进行严格测试。

5) 实时性能：如何应对某些基础模型推理时间长的问题 —— 这会有碍基础模型在机器人上的部署，以及如何加速基础模型的推理 —— 这是在线决策所需的。

这篇综述论文总结了当前基础模型在机器人领域的使用情况。他们调查了当前的方法、应用、挑战，并建议了解决这些挑战的未来研究方向，他们也给出了将基础模型用于实现机器人自主能力的潜在风险。

基础模型背景知识

基础模型有数以十亿计的参数，并且使用了互联网级的大规模数据进行预训练。训练如此大规模和高复杂性的模型需要极高的成本。获取、处理和管理数据的成本也会很高。其训练过程需要大量计算资源，需要 GPU 或 TPU 等专用硬件，还需要用于模型训练的软件和基础设施，这些都需要资金。此外，需要基础模型还需要很长的时间，这也会导致高成本。因此这些模型往往是作为可插拔模块使用的，即将基础模型整合进各种应用中，而无需大量定制工作。

表 1 给出了常用基础模型的细节。

这一节将主要介绍 LLM、视觉 Transformer、VLM、具身多模态语言模型和视觉生成模型。还会介绍用于训练基础模型的不同训练方法。

他们首先介绍了一些相关的术语和数学知识，其中涉及 token 化、生成模型、判别模型、Transformer 架构、自回归模型、掩码式自动编码、对比学习和扩散模型。

然后他们介绍了大型语言模型（LLM）的示例和历史背景。之后重点说明了视觉 Transformer、多模态视觉 - 语言模型（VLM）、具身多模态语言模型、视觉生成模型。

机器人研究

这一节关注的是机器人决策、规划和控制。在这一领域，大型语言模型（LLM）和视觉语言模型（VLM）都有潜力用于增强机器人的能力。举个例子，LLM 可以促进任务规范过程，让机器人可以接收和解读来自人类的高级指令。

VLM 也有望为这一领域做出贡献。VLM 擅长分析视觉数据。要让机器人做出明智的决策和执行复杂的任务，视觉理解能力是至关重要的。现在，机器人可以使用自然语言线索来增强自己执行操作、导航和交互相关任务的能力。

基于目标的视觉 - 语言策略学习（不管是通过模仿学习还是强化学习）有望通过基础模型获得提升。语言模型还能为策略学习技术提供反馈。这个反馈循环有助于持续提升机器人的决策能力，因为机器人可以根据从 LLM 收到的反馈优化自己的行动。

这一节关注的是 LLM 和 VLM 在机器人决策领域的应用。

这一节分为六部分。其中第一部分介绍了用于决策和控制和机器人策略学习，其中包括基于语言的模仿学习和语言辅助的强化学习。

第二部分是基于目标的语言 - 图像价值学习。

第三部分介绍了使用大型语言模型来规划机器人任务，其中包括通过语言指令来说明任务以及使用语言模型生成任务规划的代码。

第四部分是用于决策的上下文学习（ICL）。

接下来是机器人 Transformer。

第六部分则是开放词汇库的机器人导航和操作。

表 2 给出了一些特定于机器人的基础模型，其中报告了模型的大小和架构、预训练任务、推理时间和硬件设置。

感知

与周围环境交互的机器人会接收不同模态的感官信息，比如图像、视频、音频和语言。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。基础模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态基础模型可让机器人将不同感官的输入整合成一个统一的表征，其中包含语义、空间、时间和可供性信息。这些多模态模型需要跨模态的交互，通常需要对齐不同模态的元素来确保一致性和互相对应。比如图像描述任务就需要文本和图像数据对齐。

这一节将关注与机器人感知相关的一系列任务，这些任务可使用基础模型来对齐模态，从而获得提升。其中的重点是视觉和语言。

这一节分为五部分，首先是开放词汇库的目标检测和 3D 分类，然后是开放词汇库的语义分割，接下来是开放词汇库的 3D 场景和目标表征，再然后是学习到的功能可供性，最后是预测模型。

具身 AI

近段时间，有研究表明 LLM 可以成功用于具身 AI 领域，其中「具身（embodied）」通常是指在世界模拟器中的虚拟具身，而非具有实体机器人身体。

这方面已经出现了一些有趣的框架、数据集和模型。其中尤其值得一提的是将 Minecraft 游戏用作训练具身智能体的平台。举个例子，Voyager 使用了 GPT-4 来引导智能体探索 Minecraft 环境。其能通过上下文 prompt 设计来与 GPT-4 互动，而无需对 GPT-4 的模型参数进行微调。

机器人学习方面的一个重要研究方向是强化学习，也有研究者在尝试通过基础模型来为强化学习设计奖励。

使用基础模型辅助机器人执行高层规划自然也早有研究者尝试。此外也有研究者在尝试将基于思维链的推理和动作生成方法用于具身智能体。

挑战和未来方向

这一节会给出将基础模型用于机器人的相关挑战。该团队也会探索可望解决这些挑战的未来研究方向。

第一个挑战是克服训练用于机器人的基础模型时的数据稀缺问题，其中包括：

1. 使用非结构化游戏数据和未标注的人类视频来扩展机器人学习

2. 使用图像修复（Inpainting）来增强数据

3. 克服训练 3D 基础模型时的缺少 3D 数据的问题

4. 通过高保真模拟来生成合成数据

5. 使用 VLM 进行数据增强

6. 机器人的物理技能受限于技能的分布

第二个挑战则与实时性能有关，其中关键的是基础模型的推理时间。