摩尔线程正式开源MuJoCo Warp MUSA

作者:chy123|分类:金融百科

3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训练底层生态中的关键一环。

长期以来,大规模强化学习仿真训练高度依赖单一国际算力架构。尤其在机器人运控训练场景中,物理仿真、并行环境调度与大规模训练任务对底层算力平台和软件栈提出了极高要求,国产算力在这一领域长期缺乏可用、完整的基础支撑。

MuJoCo Warp MUSA的开源,标志着国产全功能GPU在强化学习仿真训练领域实现了从无到有的突破。通过打通云侧大规模训练与端侧自研SoC芯片部署路径,摩尔线程率先为机器人仿真领域提供了可落地、可验证的全栈国产算力参考方案。该方案通过全链路并行加速与高效分布式扩展,在足式机器人运控训练任务中实现了相较CPU最高40倍的训练加速。

MuJoCo Warp MUSA:

为MuJoCo引入MUSA原生支持

MuJoCo(Multi-Joint dynamics with Contact)是由神经科学家Emo Todorov开发、现由DeepMind维护的高精度物理引擎。凭借对多关节机器人、摩擦、碰撞、肌肉与电机驱动等复杂物理交互的稳定模拟能力,MuJoCo已成为学术界与工业界广泛使用的物理仿真平台之一,OpenAI Gym、dm_control等标准模拟平台均已集成MuJoCo作为物理仿真后端。

早期开源的MuJoCo主要基于CPU运行,在复杂接触场景和海量强化学习样本生成任务中,性能瓶颈较为明显。为提升效率,MuJoCo团队与国际主流GPU厂商合作,基于Warp编程语言推出了GPU加速版本MuJoCo Warp。

此次,摩尔线程为MuJoCo Warp增加了对MUSA架构的原生支持,使MuJoCo物理引擎能够直接调用摩尔线程全功能GPU,加速机器人物理仿真与强化学习训练任务。

b8ae9f98-2c28-11f1-90a1-92fbcf53809c.png

图注:MuJoCo Warp MUSA机器人仿真训练的阶段性过程Viser回放。

关键测试结果

*更多测试结果可参见摩尔线程开发者公众号

▼基础单元测试:MuJoCo Warp MUSA与MuJoCo Warp CPU版本完成严格一致性对齐,单个仿真步长计算结果的绝对误差控制在 1e-5 以内,并通过 Viewer 可视化验证,对比结果如下:

视频:Humanoid GPU-CPU 对比测试,配置参数如下。

nbody:17

solver:NEWTON

iterations:10

integrator:EULER

视频:LeRobot GPU-CPU 对比测试,配置参数如下。

nbody:10

solver:NEWTON

iterations:10

integrator:EULER

▼四足机器狗训练:在宇树Go2四足机器狗平地运控任务中,MTT S5000单卡处理4096个仿真环境仅需7~8 秒,相较多核CPU的280~300秒,实现最高约40倍加速,单卡1小时完成收敛,大幅缩短了训练周期。

图注:Go2机器狗平地环境运控,关键训练配置参数如下。

num environment:4096

solver:newton with PCG 10 iterations

ccd_iterations:50

num_steps_per_env:24

decimation:4

ba300eba-2c28-11f1-90a1-92fbcf53809c.png

▼两足人形机器人训练:在宇树G1人形机器人动作跟踪任务中,MTT S5000单卡约4.8天完成模仿学习收敛,验证了MuJoCo Warp MUSA在高难度人形机器人任务中的稳定性。

ba84e386-2c28-11f1-90a1-92fbcf53809c.gif

图注:G1人形机器人动作跟踪(Motion Tracking)训练实验。

bb05f0b6-2c28-11f1-90a1-92fbcf53809c.png

▼分布式GPU加速测试:在数据并行策略下,MuJoCo Warp MUSA支持多卡近线性扩展,8卡训练收敛加速达8倍以上,32卡最快约3.6小时完成训练。

bb5c475e-2c28-11f1-90a1-92fbcf53809c.png

图注:G1人形机器人动作跟踪训练,MTT S5000单卡与8卡训练结果对比。

bbb86a84-2c28-11f1-90a1-92fbcf53809c.png

图注:分布式加速性能。表中“时间”为单步仿真耗时,“倍数”为训练收敛加速比。如上表所示,采用数据并行(Data Parallelism)策略:每张GPU运行4096个env环境,一共同时计算8×4096 = 32,768个env,进行分布式并行仿真,收敛速度随GPU数量增加接近线性提升,而单次迭代耗时基本不变。

Sim2Real真机验证:四足机器狗与两足人形机器人均已完成真机验证,训练策略可稳定迁移至真实机器人,展现出良好的动作跟踪精度、动态平衡能力与现实部署可行性。

bc0ead7c-2c28-11f1-90a1-92fbcf53809c.gif

图注:两足人形机器人真机验证,高精度跟踪舞蹈动作轨迹。

从训练到部署:

自研SoC芯片协同,打通云边端

MuJoCo Warp MUSA的意义不仅在于训练加速,更在于进一步打通从仿真训练到真实部署的关键链路。

在真机部署阶段,机器人本体采用摩尔线程自研的长江SoC芯片作为端侧控制核心。该芯片不仅可以满足基础运控策略的实时执行需求,也可支持语音 TTS、ASR、各类 CV 模型以及端侧大模型部署。

通过“云侧大规模训练加速 + 端侧高效执行部署”的协同,摩尔线程初步构建起了从仿真训练到真机部署的完整闭环支持,也为具身智能终端提供了全栈的国产算力支撑。

bc83a992-2c28-11f1-90a1-92fbcf53809c.png

图注:正在进行策略部署调试中的机器狗,端侧控制采用摩尔线程长江SoC芯片。

bcdd9452-2c28-11f1-90a1-92fbcf53809c.gif

图注:使用摩尔线程长江SoC芯片对机器狗进行端侧控制的真机运行效果。

开源共建:

持续完善国产具身智能基础设施

MuJoCo Warp MUSA 的开源,是摩尔线程在机器人仿真方向迈出的关键一步,也为国产具身智能生态补上了重要的底层能力。

通过提供自主可控的物理仿真加速方案,摩尔线程希望为开发者与科研机构提供了更具可行性的国产技术底座,加速推动机器人从虚拟训练走向真实应用。

后续,摩尔线程将持续优化MUSA软件栈,并计划将当前成果进一步整合重构为通用的机器人仿真训练平台Lambda Lab,面向具身智能开发者持续推进开源共建。

MTT KUAE 开放试用申请:

https://metapark.mthreads.com/kuaetry

MuJoCo Warp MUSA开源地址:

https://github.com/MooreThreads/mujoco_warp_musa

*以上测试数据、视频及图片均来源于摩尔线程具身智能实验室。

关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

01 04月

2026-04-01 11:02:57

浏览3575
返回
目录
返回
首页
3个标准自测睡眠质量,快看你达标了吗? 晶界相工程决胜高热导率:Y₂O₃-MgO与Y₂O₃-Al₂O₃烧结体系在氮化硅陶瓷中的效能对比