【ZiDongHua 之“会展赛培坛”标注关键词:灵初智能 智能制造 人工智能 机器人 具身智能
 
  灵初智能温颖博士GEIA 2026发言:以人类数据为核心,构建具身灵巧操作通用模型
 
  近日,"GEIA 2026 智能制造论坛"在上海召开。论坛聚焦人工智能与智能制造深度融合的产业前沿议题,集结国内外学术界与产业界代表,围绕具身智能、工业大模型、智能装备等方向展开研讨。
 
  灵初智能首席科学家、上海交通大学人工智能学院副教授温颖博士受邀出席,并作为分享环节主讲嘉宾,发表题为《基于人类数据打造具身灵巧操作通用模型(From Human Data to Dexterous Robot Intelligence)》的主题演讲。
 
 
  温颖博士从能力分层、数据范式、模型架构、场景落地等多个维度,系统拆解了灵初智能在过去一年半内确立的具身智能技术路线,并明确指出:人类数据是当前唯一能够大规模 Scale Up 的数据管线路线,也是具身智能从实验室走向真实世界的关键变量。灵巧、长程与成功率,是具身智能商业化落地的三道分水岭。
 
  演讲伊始,温颖博士即指出:具身智能的落地不是单点技术问题,而是一次跨越四个能力层级的系统性跃迁——从 L1 单一抓取泛化(数据规模约 1K 小时,对应科研实验室),到 L2 五指灵巧操作(10 万小时,对应泛工业),再到 L3 半结构化环境下的长程任务规划(200 万小时,对应泛物流、泛零售),直至 L3+ 开放环境下的家庭服务(1000 万+ 小时)。每跨一层,都是一次工程量级的挑战。灵初智能当前的产品定位,正锚定在 L2 至 L3 的核心区间,并以泛物流、泛零售作为第一落地场景。
 
  而决定这场跃迁能否走通的核心瓶颈,温颖博士给出的判断非常明确——是数据。 他在演讲中强调:"硬件在快速迭代,算力我们有,算法模型也相对成熟——唯一与大语言模型相比存在巨大缺口的,是机器人操作数据的极度稀缺。"具身智能领域目前不存在"ImageNet 级"的标准数据集,没有自然形成的数据闭环,也缺乏规模化的数据来源。如何构建数据飞轮,是具身智能能否拥有泛化能力的最关键问题之一。
 
  围绕这一瓶颈,行业过去几年走过两条曾被普遍寄予厚望、但最终被证明无法独立支撑大规模落地的技术路径:仿真数据虽然成本低、易扩展,但受限于物理引擎对柔性物体、摩擦、流体等物理过程的近似精度,仿真到真实之间存在难以跨越的 sim-to-real gap,且场景多样性远不及真实世界;真机遥操作数据虽然质量较高,但单套设备成本约 30 万至 50 万元,采集效率与场地多样性同时受限,难以规模化部署,且遥操采集的速度有的难以匹配真实工厂产线的节拍要求。
 
 
  灵初智能由此选择了第三条路径——以人类操作数据为核心。温颖博士指出,人类数据是同时满足规模、精度、多样性三个维度的唯一选项,其本身天然蕴含真实物理世界的全部复杂性。在数据配方层面,灵初进一步明确了优先级——模态上以精准 3D 位姿 ≫ 触觉 > 2D 图像特征为序,类别上以任务多样性 > 物体多样性 ≫ 环境多样性为序,奠定了人类数据用于预训练的工程基础。
 
 
  为支撑这一路径的工程化落地,灵初智能自主研发了"数据采集中心 2.0"以及首个具身原生人类数据采集方案——Psi-SynEngine。 该方案以自研外骨骼数据采集手套为核心,可在亚毫米精度下捕捉人手每根手指的三维运动轨迹,覆盖视觉、运动学、语音/文本、触觉四类全模态信息。
 
  当前单套设备成本已压缩至几千元量级,在未来 1–2 年内目标进一步降至百元级别。这一轻量化设计的根本意义在于——数据采集场景不再受限于专属采集工厂,工厂产线、商超货架、物流分拣区,任何真实作业场景都可以成为数据来源地。截至目前,灵初智能已在上海、北京及全国多地部署数据采集网络,完成近 10 万小时人类手部操作全模态数据集的积累。
 
  模型架构层面,灵初智能的新一代具身基座模型由 Psi-R2 操作策略模型与 Psi-W0 动作条件型世界模型双模型协同构成。 Psi-R2 以图像、机器人状态与文本指令为输入,预测动作序列(Action Chunk),承担长程任务规划与连续子任务分解;Psi-W0 则以感知与动作为输入,滚动预测未来帧,承担策略评估与轨迹修正。
 
  当数据规模足够大时,人为设计即性能瓶颈。灵初仅在维度层面对齐人手与机器人的关节动作,以原始动作为训练目标,不进行人工修正或对齐重建,直接输入原始图像进行大规模训练。这一选择与 Richard Sutton 提出的 Bitter Lesson 一脉相承,并已在大规模实验中验证有效。
 
  正如温颖博士所言:"当数据量达到一定规模,这些人类数据能够在不同的本体上产生比较好的泛化效果——不是因为我们做了什么特别的设计,而是因为数据量本身就是答案。"
 
  模型性能方面,2026 年 4 月,Psi-R2 在由美国艾伦人工智能研究所(AllenAI)发起的 MolmoSpaces 国际权威基准评测中位列全球第一,超越 PI、DreamZero等国际主流模型。
 
  与此同时,由灵初智能联合北京大学等机构提出的首个自我增强灵巧操作数据生成框架 DexFlyWheel,已被 NeurIPS 2025 接收为 Spotlight 论文(入选率约 3.2%)。该框架通过模仿学习、残差强化学习与数据增强的闭环迭代,可在仿真环境中实现数据规模与场景多样性的指数级扩增——为人类数据预训练之后的工程化扩展,提供了可持续的数据生成机制。学术与工程双线的成果,共同支撑了灵初智能"人类数据底座 + 双模型协同 + 仿真数据飞轮"的完整技术体系和领先地位。
 
  在场景落地层面,灵初智能将物流拣选作为商业化第一战场。物流分拣中,与人手灵巧操作直接相关的工序占比约 60%–80%,操作类型集中于抓取、扫描、放置——与当前模型能力高度匹配。仓内 Manipulation 在国内的可触达市场规模约 6300 亿元,全球约 7.35 万亿元。
 
  目前,灵初智能已与多家企业建立合作,在自动化拣选与智能供包分拣方向,模型成功率与作业节拍已达到接近人工的水平。
 
  站在 2026 年具身智能技术路线分化与落地竞速的关键节点上,灵初智能将持续以人类数据为底座、以双模型架构为核心、以泛物流与泛零售为第一落地场景,推动具身智能从榜单走向产线,从单点能力走向规模化商业闭环。公司将继续以扎实的技术演进与开放的产业协同,与全球生态伙伴共同迈向通用具身智能的下一个里程碑。