OpenPI:开源机器人视觉语言动作模型,让机器人更智能
你是否想过让机器人像人类一样理解视觉信息、语言指令并执行精准动作?Physical Intelligence团队开源的OpenPI项目让这成为现实。这是一个专注于机器人技术的开源模型库,包含多种先进的视觉-语言-动作(VLA)模型,能够处理复杂的机器人任务。
核心模型介绍
OpenPI目前提供三个主要模型:
- π₀模型:基于流匹配的视觉-语言-动作模型
- π₀-FAST模型:基于自回归架构和FAST动作标记器的VLA模型
- π₀.₅模型:π₀的升级版本,采用知识隔离技术,具有更好的开放世界泛化能力
这些模型都经过10,000+小时的机器人数据预训练,可以作为基础模型进行微调,适应各种机器人平台和任务。
实际应用场景
OpenPI模型已经在多个机器人平台上验证了其有效性:
-
DROID机器人平台:π₀-FAST-DROID模型可以在新场景中零样本执行各种桌面操作任务,如抓取餐具、摆放物品等
-
ALOHA机器人平台:专门微调的模型可以执行折叠毛巾、打开保鲜盒、拔笔帽等精细操作
-
LIBERO基准测试:π₀.₅模型在该基准上达到了最先进的性能表现
如何使用
安装非常简单,使用uv包管理器即可快速设置环境:
git clone --recurse-submodules [email protected]:Physical-Intelligence/openpi.git
GIT_LFS_SKIP_SMUDGE=1 uv sync
GIT_LFS_SKIP_SMUDGE=1 uv pip install -e .
运行推理示例
只需几行代码就能使用预训练模型进行推理:
from openpi.training import config as _config
from openpi.policies import policy_config
config = _config.get_config("pi05_droid")
policy = policy_config.create_trained_policy(config, checkpoint_dir)
example = {
"observation/exterior_image_1_left": ...,
"observation/wrist_image_left": ...,
"prompt": "pick up the fork"
}
action = policy.infer(example)["actions"]
微调自定义数据
OpenPI支持在自己的数据集上微调基础模型。以LIBERO数据集为例:
- 数据转换:将原始数据转换为LeRobot数据集格式
- 训练配置:定义数据处理和训练参数
- 启动训练:使用计算好的归一化统计数据开始微调
PyTorch支持
最新版本还提供了PyTorch实现,支持π₀和π₀.₅模型,方便PyTorch用户使用。PyTorch版本在LIBERO基准测试中经过验证,推理速度与JAX版本相当。
同类项目对比
与OpenPI类似的机器人学习项目还有:
- RT-X:Google DeepMind的机器人Transformer项目,专注于大规模机器人数据训练
- DROID:专注于大规模机器人操作数据集收集和模型训练
- ALOHA:低成本双手机器人系统,提供完整的硬件和软件解决方案
- LIBERO:终身机器人学习基准测试,包含多个任务序列
OpenPI的独特之处在于其流匹配架构和知识隔离技术,在保持高效推理速度的同时,提供了优秀的语言指令跟随能力。
无论你是机器人研究者、工程师,还是对机器人技术感兴趣的开发者,OpenPI都提供了一个强大的基础,让你能够快速开始机器人智能控制的研究和应用开发。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容