无标题-一起撸毛吧

OpenPI：开源机器人视觉语言动作模型，让机器人更智能

你是否想过让机器人像人类一样理解视觉信息、语言指令并执行精准动作？Physical Intelligence团队开源的OpenPI项目让这成为现实。这是一个专注于机器人技术的开源模型库，包含多种先进的视觉-语言-动作（VLA）模型，能够处理复杂的机器人任务。

核心模型介绍

OpenPI目前提供三个主要模型：

π₀模型：基于流匹配的视觉-语言-动作模型
π₀-FAST模型：基于自回归架构和FAST动作标记器的VLA模型
π₀.₅模型：π₀的升级版本，采用知识隔离技术，具有更好的开放世界泛化能力

这些模型都经过10,000+小时的机器人数据预训练，可以作为基础模型进行微调，适应各种机器人平台和任务。

实际应用场景

OpenPI模型已经在多个机器人平台上验证了其有效性：

DROID机器人平台：π₀-FAST-DROID模型可以在新场景中零样本执行各种桌面操作任务，如抓取餐具、摆放物品等
ALOHA机器人平台：专门微调的模型可以执行折叠毛巾、打开保鲜盒、拔笔帽等精细操作
LIBERO基准测试：π₀.₅模型在该基准上达到了最先进的性能表现

如何使用

安装非常简单，使用uv包管理器即可快速设置环境：

git clone --recurse-submodules [email protected]:Physical-Intelligence/openpi.git
GIT_LFS_SKIP_SMUDGE=1 uv sync
GIT_LFS_SKIP_SMUDGE=1 uv pip install -e .

运行推理示例

只需几行代码就能使用预训练模型进行推理：

from openpi.training import config as _config
from openpi.policies import policy_config

config = _config.get_config("pi05_droid")
policy = policy_config.create_trained_policy(config, checkpoint_dir)

example = {
    "observation/exterior_image_1_left": ...,
    "observation/wrist_image_left": ...,
    "prompt": "pick up the fork"
}
action = policy.infer(example)["actions"]

微调自定义数据

OpenPI支持在自己的数据集上微调基础模型。以LIBERO数据集为例：