v1.3

MaskedMimicPlus

一个统一的端到端人形全身(全身包括灵巧手共153个自由度)动作控制框架,覆盖从模仿跟踪到目标导向操控的多种任务形式。

当前已完成: ✔ 全身动作模仿

正在调试:


一、效果展示

全身动作模仿

模仿人类走到桌边并抓起桌面上的物体。

物品抓取成功率统计
抓取类型物体类型物体举例成功率主要失败原因
单手常规形状物体闹钟、苹果、香蕉、鼠标、相机、大象模型等99%-
单手细长的物体或者扁平的物体高脚杯、水果刀、牙刷、眼镜等11%容易抓错位置
单手有孔洞把手的物体杯子的把手、剪刀等2%容易把物体撞翻、手指无法穿过孔洞把手
单手大型物体大立方体、大球体等32%容易抓不稳而滑落
双手各类物体各类物体13%双手配合难度大,模型退化成保守模式(只接触不用力举起)

 

部分抓取失败案例展示

双手配合难度大,模型退化成保守模式(只接触不用力举起)

 

物体太大,用力不合适导致抓取滑落

 

稀疏约束下的远程遥操

正在调试中

自主执行自定义任务

正在调试中


二、概述

1.1 系统架构

 

架构图

1.1 特点

与传统使用物理引导、逆运动学或手工设计控制器的管线不同,本项目强调:

1. 端到端控制(End-to-End Control)

策略可以通过强化学习直接优化控制输出,因此整个策略:

2. 基于 VAE 的动作风格潜变量(Natural Motion Latent)

项目采用 VAE(Variational Autoencoder)结构来学习人体自然动作风格:

优点:

3. 稀疏控制能力:只指定部分关节,其余由神经网络自适应补全

在远程控制(teleoperation)或 VR 输入中,常见情况是:

本项目支持:

✔ 只指定部分关节(例如:头 + 双手),其余身体动作由策略自适应生成

这是端到端 + VAE 结构的联合优势,使得系统可以:

也非常适合未来扩展为遥操作机械人或全身 teleoperation。

1.2 与相关工作的关系

本项目基于 MaskedMimic 的开源代码进行扩展开发,将其能力从“纯全身模仿(AMASS)”拓展至“人—物交互模仿(GRAB)”。

原始 MaskedMimic 仅支持 AMASS 数据集的无物体全身动作模仿,不包含手部接触和抓取相关能力。

在此基础上,本项目完成了以下系统级扩展:

最终实现了在物理仿真环境中模仿 GRAB 数据中人类抓取动作的能力。

本项目的研究方向与 NVIDIA 后续提出的 MaskedManipulator 存在一定重叠,但其实现代码尚未开源,本项目的扩展与实现均独立完成。

相似方向

不同点


三、后续工作

1. 稀疏约束下的远程遥操

目前VAE架构下已具备稀疏关节约束下的远程遥操,但是模型还需要进一步微调训练和调通遥操部分pipeline。

2. 自主执行自定义任务

增加路径规划逻辑和物品摆放位置的自定义接口,让机器人可以执行类似于工业流水线中的自定义任务。

四、相关参考

  1. MaskedMimic- Unified Physics-Based Character Control Through Masked Motion Inpainting

  2. PULSE -UNIVERSAL HUMANOID MOTION REPRESENTATIONS FOR PHYSICS-BASED CONTROL