【ZiDongHua 之“创新自化成”标注关键词:人工智能机器人具身智能

首个国家级具身智能开源数据集社区成立,首发机器人“灵巧操作+全身运动”真机数据集

近日,“开放原子具身智能开源数据集社区”正式启动。作为国家级平台发起的首个具身智能开源数据集社区,该社区由开放原子开源基金会发起、乐聚机器人牵头,联合蚂蚁灵波、库帕思、上海交通大学、哈尔滨工业大学、同济大学、宇树、具识智能、具脑磐石及无问智行等核心单位共建。社区致力于打造全球具身智能领域具有影响力和吸引力的真实数据资源枢纽与协作创新平台,为行业数据基础设施建设提供关键的制度保障与资源协同。

图片

01

规模化元年的瓶颈与挑战

2026年被行业定义为“具身智能数据规模化元年”,人形机器人产业正迎来关键转折点。当前,本体运动控制技术已趋成熟,机器人能够稳定行走、越障甚至完成复杂动作,但“大脑”——即负责感知世界、任务理解、规划决策的智能系统——却成为规模化落地的核心瓶颈。

要推动大脑从“能理解”迈向“会执行”,关键在于数据。尤其是在模型落地的“最后一公里”中,高质量真机数据具有不可替代性。与仿真数据不同,真机数据能够提供真实的物理交互反馈,消除Sim2Real鸿沟,显著提升场景开发效率(工业场景下效率可提升4倍),同时降低训练后的处理成本;多机采集还能保证时空一致性,减轻模型训练负担。

然而,行业正面临严峻挑战:数据标准不统一、数据孤岛严重、开源真机数据极度匮乏。数据显示,2025年上半年全球开源具身数据集累计时长不足1000小时,远无法支撑实质性研发。尽管行业依赖真机、UMI和合成数据构成的“铁三角”,但在强化学习与落地微调阶段,真机数据的缺失已成为连接物理世界的最大阻碍。

02

从“训练场”布局到标准化治理

正是基于上述痛点,“训练场”作为规模化生产真机数据的基础设施,其战略价值日益凸显。此次社区的成立,标志着“训练场”的规模化布局精准锚定了产业发展核心堵点。它不仅从根源上破解高质量数据供给不足的难题,还能降低全行业研发门槛与重复投入,加速具身模型迭代与场景落地。可以说,该社区明确了真机数据在模型迭代中的核心地位,为智能大脑的快速升级提供了充足、稳定、高质量的数据支撑,成为推动具身智能跨越“最后一公里”的关键基础设施。

为确保社区高效运行,仪式上同步启动了“开放原子开源基金会人工智能开源社区开源数据集工作组”。该工作组由开放原子开源基金会指导,联合中国信通院、上海人工智能实验室、库帕思、乐聚机器人、百度、海天瑞声、视觉中国创意社区等产学研用核心单位共同发起。工作组将致力于构建行业级数据协作机制,制定AI数据集的开源治理框架与质量评估标准,推动数据资源在产业界与学术界的规范流通与互信共享。

图片

03

首发成果:OpenLET数据集填补空白

作为社区成立的首个重磅成果,OpenLET“触觉灵巧操作 + 全身运动”数据集在AtomGit人工智能开源社区全球首发。这是全球首个融合触觉灵巧操作与全身高动态运动的多模态具身智能数据集,也是国内首次开源全尺寸人形机器人全身运控多模态真机数据,成功填补了行业相关领域空白。

图片

该数据集包含两大核心亮点:

LET灵巧操作数据: 提供6×12×10指尖压力矩阵的触觉阵列数据、精度±0.5%的六维力数据、高分辨率RGB-D视觉数据,实现“视觉-力触-动作”全链路同步对齐,捕捉机器人操作的全维度细节。

LET全身运控数据: 覆盖41个关节精细控制信号,将任务维度从基础行走站立延伸至深度下蹲、弯腰等高难度全身联动任务,在动作节奏、平衡维持及交互顺应性上实现高度拟人表现。