无标题

OpenPI:开源机器人视觉语言动作模型,让机器人更智能

你是否想过让机器人像人类一样理解视觉信息、语言指令并执行精准动作?Physical Intelligence团队开源的OpenPI项目让这成为现实。这是一个专注于机器人技术的开源模型库,包含多种先进的视觉-语言-动作(VLA)模型,能够处理复杂的机器人任务。

核心模型介绍

OpenPI目前提供三个主要模型:

  • π₀模型:基于流匹配的视觉-语言-动作模型
  • π₀-FAST模型:基于自回归架构和FAST动作标记器的VLA模型
  • π₀.₅模型:π₀的升级版本,采用知识隔离技术,具有更好的开放世界泛化能力

这些模型都经过10,000+小时的机器人数据预训练,可以作为基础模型进行微调,适应各种机器人平台和任务。

实际应用场景

OpenPI模型已经在多个机器人平台上验证了其有效性:

  1. DROID机器人平台:π₀-FAST-DROID模型可以在新场景中零样本执行各种桌面操作任务,如抓取餐具、摆放物品等

  2. ALOHA机器人平台:专门微调的模型可以执行折叠毛巾、打开保鲜盒、拔笔帽等精细操作

  3. LIBERO基准测试:π₀.₅模型在该基准上达到了最先进的性能表现

如何使用

安装非常简单,使用uv包管理器即可快速设置环境:

git clone --recurse-submodules [email protected]:Physical-Intelligence/openpi.git
GIT_LFS_SKIP_SMUDGE=1 uv sync
GIT_LFS_SKIP_SMUDGE=1 uv pip install -e .

运行推理示例

只需几行代码就能使用预训练模型进行推理:

from openpi.training import config as _config
from openpi.policies import policy_config

config = _config.get_config("pi05_droid")
policy = policy_config.create_trained_policy(config, checkpoint_dir)

example = {
    "observation/exterior_image_1_left": ...,
    "observation/wrist_image_left": ...,
    "prompt": "pick up the fork"
}
action = policy.infer(example)["actions"]

微调自定义数据

OpenPI支持在自己的数据集上微调基础模型。以LIBERO数据集为例:

  1. 数据转换:将原始数据转换为LeRobot数据集格式
  2. 训练配置:定义数据处理和训练参数
  3. 启动训练:使用计算好的归一化统计数据开始微调

PyTorch支持

最新版本还提供了PyTorch实现,支持π₀和π₀.₅模型,方便PyTorch用户使用。PyTorch版本在LIBERO基准测试中经过验证,推理速度与JAX版本相当。

同类项目对比

与OpenPI类似的机器人学习项目还有:

  1. RT-X:Google DeepMind的机器人Transformer项目,专注于大规模机器人数据训练
  2. DROID:专注于大规模机器人操作数据集收集和模型训练
  3. ALOHA:低成本双手机器人系统,提供完整的硬件和软件解决方案
  4. LIBERO:终身机器人学习基准测试,包含多个任务序列

OpenPI的独特之处在于其流匹配架构和知识隔离技术,在保持高效推理速度的同时,提供了优秀的语言指令跟随能力。

无论你是机器人研究者、工程师,还是对机器人技术感兴趣的开发者,OpenPI都提供了一个强大的基础,让你能够快速开始机器人智能控制的研究和应用开发。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容