北京人形开源走进北航|一场开源与产学研的碰撞
北京人形开源走进北航|一场开源与产学研的碰撞
代码不止于云端,智能终须触碰现实。近日,北京人形机器人创新中心(以下称北京人形)旗下天工造物开源社区在北京航天航空大学点燃了具身智能“火种”,这不仅仅是一场技术分享,更是一次硬核的“产学研”现场对接。
本次活动由天工造物开源社区与北京航天航空大学主办,亦庄机器人未来机域社区协办。活动共吸引100余位师生报名参加,聚焦如何用开源方案,为具身智能构建协同工作的“大小脑”——让擅长认知的“大脑”(多模态大模型)与精于控制的“小脑”(VLA模型)高效配合,推动前沿技术从实验室走向产学界共创的真实场景。

活动开始,北京航天航空大学自动化科学与电气工程学院教授秦曾昌老师出席活动并致辞,秦老师介绍了北京航天航空大学在具身智能领域的进展和探索情况,并期待通过与开源社区的合作,为学生提供更多的学习与实践的机会。

自适应学习,让具身拥有智能
北京人形具身智能算法专家张怡介绍了团队最新技术成果—Pelican(天鹕)多模态大模型。该模型覆盖3B、7B、72B参数规模,即将发布3B的版本,是“最大规模的开源具身多模态大脑模型”。其核心优势在于深度整合海量数据与自适应学习机制:并在由 1000+ A800 GPU 组成的集群上训练,单次检查点训练耗费超过 50,000 A800 GPU-小时;团队从原始数据中蒸馏出包含数亿 token 的高质量元数据以做训练基石。在基线基础上性能提升20.3%,超过同级别开源模型10.6%。

在模型层面,北京人形不仅聚焦多模态大模型,在世界模型方向亦取得重要进展,其开源的具身世界模型WoW(我悟)旨在让AI通过身体与环境的交互学习因果与物理规律,推动实现“更好用”的具身智能机器人。
WoW(我悟)世界模型基于从800万条真实交互轨迹中筛选出的200万条高质量数据,在140亿参数规模的视频模型上进行训练。实验表明,该模型已具备对“未来合理物理结果概率分布”的构建能力,展现出优异的物理推理与预测性能。
WoW(我悟)通过系统性结合完成了【想象世界 → 理解物理 → 生成视频 → 执行动作 → 再学习】的逻辑闭环,而这仅仅是一个开始。当 AI 拥有“手”和“身体”,能够真实地探索世界、干预世界、理解因果、积累经验,它将不再只是世界的观察者,而成为一个真正的智能体。这也意味着有可能演化出更贴近人类的具身智能心智模型,具备感知、理解、决策、记忆与行动的统一结构等。
未来北京人形的研究将持续推进 WoW (我悟)在具身智能方向的多模态融合、自主学习、现实交互等能力边界,探索 AI 如何像人类一样在世界中生长、适应与进化。为了加速这个进程,WoW(我悟)项目现已全面开源,向所有研究者与开发者开放。
Pelican- VL:https://huggingface.co/collections/X-Humanoid/pelican-vl-10
WoW:https://huggingface.co/collections/X-Humanoid/wow
高效一步生成视觉运动策略
北京人形具身智能算法专家刘宁,分享了其被NeurIPS 2025接收的最新研究成果。他提到,北京人形机器人创新中心具身智能团队提出的 FreqPolicy 策略,其通过在标准流匹配中引入频域一致性约束,实现了噪声到动作的高质量一步生成。相较于之前的一步动作生成方法SOTA性能,FreqPolicy在Robomimic测试基准上的平均性能提升了6%,在MetaWorld测试基准上的平均性能提升了8.9%。此外,当与OpenVLA等VLA模型相结合时,FreqPolicy能够在不损害操作性能的前提下,将推理速度提高至原来的5倍。
在数据领域的投入上,北京人形同样显著。去年开源的RoboMIND数据集收录了超10万条真实世界演示轨迹,覆盖479种不同任务,涉及96个独特物体类别。在不到一年的时间内,该数据集下载量已突破14万。到今年年底,北京人形将推出RoboMIND 2.0,预计新增30万条数据。
此外,结合北京人形开源的RoboMIND数据集以及专为具身天工机器人适配Lerobot开源框架所打造的训练工具链,开发者可基于Lerobot的算法实现,在RoboMIND数据集上进行训练,并应用于具身天工机器人的实体操作,从而有效降低开发门槛。
RoboMIND下载链接:https://huggingface.co/datasets/x-humanoid-robomind/RoboMIND
训练工具链:https://github.com/Open-X-Humanoid/x-humanoid-training-toolchain
做机器人产业的“刷冰人”
北京亦庄机器人科技产业发展有限公司副总经理李泽众先生从亦庄的整体机器人产业布局出发,通过冰壶运动员以刷冰的方式让冰壶滑行的更远更精准这个例子,生动地为在场学生介绍了亦庄机器人公司正在做的事情,亦庄机器人通过汇聚机器人全产业链之力,构建一个服务于开发者的具身智能创新生态平台——“未来机域”社区。其核心模式是通过“汇资源、聚人才、育生态”,为学术与商业开发者提供一站式支撑。
具体措施包括:打造线上平台提供资讯、开源数据、开发工具和论坛交流;建设线下实体空间,配备共享实验室、提供数据采集训练场及开发办公设施;构建强大的服务支撑矩阵,涵盖从技术导师、产业应用场景对接、创业孵化到投融资、法律政策等全周期服务。通过为个人、企业及机器人本体公司提供差异化的专属权益,最终目标是加速具身智能技术的创新、成果转化与商业化落地,共筑机器人产业的创新未来。
大模型时代的具身智能探索
北京航空航天大学助理教授范肇心分享了题为《大模型时代的具身智能初探索》的报告。范老师系统回顾了前大模型时代的研究范式,涵盖静态场景理解、动态场景分析与定位导航等方向。
进入大模型时代后,范老师重点介绍了基于辅助推理的视觉语言导航研究。在长程导航任务中,直接输出思维链推理容易引发模型幻觉,导致动作预测偏差;而所提出的Aux-Think框架通过引入辅助推理任务,有效抑制了推理过程中的幻觉现象,在测试阶段能够高效输出导航指令,显著提升了导航性能。此外,在双臂机器人操作方面,范老师还介绍了基于“具身天工”机器人平台实现的最大双臂操作并行度任务规划的最新研究进展。
未来,天工造物开源社区将持续扮演“催化剂”,助力更多来自高校的创意在开源协作中生根发芽,最终走入真实场景。目前北京人形现已开放大量正式岗位与实习机会,并为团队成员提供有竞争力的薪酬福利及开放协作的工作氛围,以及深度参与前沿具身项目的机会。欢迎广大高校学子加入北京人形,一起在具身智能的浪潮中,实现灵感落地和价值创造。
天工造物开源社区,集成了论坛博客、论坛交流、技术文档展示、专家认证等多元功能。这一社区共治模式让企业、高校、科技机构可基于此平台随时交流技术问题、展示开源成果,避免重复造轮子。未来,天工造物开源社区也将进一步推动开发者协作创新、加速行业技术突破,为具身智能产业提供人才培育、技术迭代和产业落地的基座平台。
下一场,天工造物开源社区将解锁新地图——清华大学。欢迎开发者与极客们保持关注,北京人形的清华之旅,期待你的加入。
我要收藏
点个赞吧
转发分享








评论排行