【ZiDongHua 之“推好新品榜”标注关键词:灵初智能 具身智能 灵巧手 机器人
  
  灵初智能新一代具身模型发布,全球最大人类手部操作数据集开源!
  
  4月10日,灵初智能正式发布基于人类数据预训练的大模型Psi-R2和Psi-W0,并宣布开源首批1000小时人类手部操作全模态数据集。该数据集是当前行业最大的开源人类手部操作全模态数据集,总数据储备达10万小时,标志着具身智能领域数据规模化迈出重要一步。
  
  从10万小时人类数据到具身大脑Psi-R2
  
  长期以来,AI的成功依赖大规模数据和算力的Scaling。与自动驾驶和大语言模型领域不同,具身智能没有存量数据,也很难在商业化运营中自然积累数据。如何Scaling数据,成为整个具身智能领域最重要的问题。
  
  人类日常工作生活中一直在使用双臂双手进行灵巧操作,一个最直接的想法是将这些数据作为具身智能的数据燃料。灵初智能采集了超过10万小时的人类操作数据,涵盖工业装配、生活操作、物体抓取等多种场景和任务。
  
  此次发布的 Psi-R2 是第一个使用广泛10万小时量级人类数据预训练的 World Action Model 模型。模型的输入是图片和语言,输出是预测的未来视频和机器人动作。我们研究发现,当数据量足够大时,所有人为设计的模块都会成为性能瓶颈。我们选择相信The Bitter Lesson:raw data in, raw data out。直接通过运动学将人类关节与机器人对齐,图片不做特殊处理,让模型自己从海量数据中学习。
  
  实验结果验证了这一思路:当总体数据量较小时效果不明显,但当数据量足够大后,简单的设计带来了更好的泛化性、长程能力和操作上限。只需<100条轨迹的真机数据微调,模型即可完成装配手机、工业包装、叠纸盒等长程精细操作。
  
  在 MolmoSpace 国际具身智能基准评测中,Psi-R2 超越 PI 与英伟达的模型,斩获全球第一。
  
 
  
  MolmoSpace 由美国艾伦人工智能研究所(AllenAI)发起,是全球具身智能领域权威基准评测平台,NVIDIA、PI 等全球顶尖团队均参与本次评测。灵初 Psi-R2 在评测中超越 PI、DreamZero 等国际知名模型,表现显著优于其他基线模型,成功率大幅领先同类VLA产品,充分体现出企业自主研发路线的先进性与竞争力。
  
  Psi-W0:“在世界模型里进行强化学习”的新思路
  
  同步发布的Psi-W0是一个Action-Conditioned World Model,输入是图片、语言和机器人Action轨迹,输出是未来预测的视频。它的核心功能是对Policy进行评估、提升,并与Psi-R2形成数据飞轮。
  
  Psi-R2的所有训练数据都必须是有目的且成功的,因此无法生成失败的预测——而这些反事实对于策略学习,特别是强化学习来说非常重要。Psi-W0需要的数据不仅是成功完成任务的数据,更需要失败的数据,让Policy能够在World Model里面进行强化学习训练。
  
  Psi-W0的另一个核心作用是将人类数据转换成机器人数据。借助强化学习,将人类数据的dynamic迁移到机器人的dynamic上——这正是人类数据能否真正用于机器人训练的关键能力。
  
  在两个模型的相互配合之下,Psi-R2 学习人类怎么做事,Psi-W0 把人类经验"翻译"成机器人能执行的策略,并在模拟器中通过强化学习微调使其适应机器人本体。从而形成:用强化学习在 Psi-W0 里微调后,生成机器人数据 → 筛选高质量数据 → 重新加入 Psi-R2 和 Psi-W0 的训练 → 能力更强 → 产生更多好数据 → 循环迭代的数据飞轮。
  
  1000小时全模态数据集开源
  
  同时,我们宣布开源行业最大规模的人类手部操作全模态数据集。首批开放1000小时高质量数据,总储备达10万小时。
  
  
  
  该数据集的亮点包括:
  
  全模态覆盖:包含视觉、语言、关节角度、触觉四类信息,是真正意义上的全模态数据集;
  
  高精度采集:通过灵初自研外骨骼手套采集,3D轨迹精度达亚毫米级,远超纯视觉估算的厘米级误差;
  
  多场景多任务:涵盖工业装配、生活操作、物体抓取等多种任务类型;
  
  在数据的质检和标注中,我们引入Psi-W0,运用世界模型的可视化能力为数据质量打分。所有数据质检和标注都采用AutoLabeling方式完成,只在最后需要人工审核。
  
  数据集开源链接:https://huggingface.co/datasets/PsiBotAI/SynData
  
  Tech blog链接:https://www.psibot.ai/from-human-skill-to-robotic-mastery/
  
  当前,灵初智能正在推进与北京石景山区的数采厂合作,另外,我们还致力于拓展觅蜂、智域基石等具身数据方向的合作伙伴。其中,觅蜂科技由红杉中国领投完成数亿元融资,已构建从真机到仿真的全链路数据服务能力,是国内规模最大的具身智能数据平台之一,并与全球多家科技巨头建立深度合作。同时,我们还将在今年与腾讯云进行深度合作。
  
  人类数据用来做模型训练早在具身早期阶段就有,但数据规模始终未能突破。我们希望通过开源数据集推动行业前进,共同加速具身智能的发展。