智元机器人联合香港大学推出的UniVLA入选 RSS 2025 并开源!
【ZiDongHua 之“技术文章区”收录关键词: 智元机器人 香港大学 具身模型】
智元机器人联合香港大学推出的UniVLA入选 RSS 2025 并开源!
导 言
现有具身模型没有充分利用更加多样的视频数据,难以适应未训练过的新任务与新场景,通用性受限。为此,智元机器人联合香港大学提出UniVLA:一个具备跨机器人本体、场景与任务泛化能力的通用策略学习系统。它构建了以任务为中心的隐式动作空间,充分利用语言描述与视频示范进行策略学习,实现了从“看视频”、“听指令”到“动手操作”的通用控制。该成果已被机器人顶会 RSS 2025 认可,同时代码也已经开源,并成为全球顶尖机器人赛事 AgiBot World Challenge @ IROS 2025【点击文字跳转相关文章】 的baseline之一。
想象一下在不远的未来,通用机器人真正走进了日常生活。我们希望当你发出一条自然语言指令,无论是“帮我给猫喂食”,还是“帮我关掉台灯”,它都能够理解你的意图,并准确地完成动作——不依赖预定义的任务模板,也不受限于曾经训练过的数据分布。
然而,现有的机器人系统往往依赖人工标注的数据与固定的动作空间,面对那些未被明确训练过的任务或非典型场景,它们常常会因为“未见过”“无定义”而选择拒绝执行,严重限制了通用性的发挥。有没有一种能够从更广泛的数据来源,如从互联网上的人类视频中学习动作的方法,并实现多种场景、任务的真正通用和泛化呢?
最近,智元机器人联合香港大学基于此提出了全新框架——UniVLA,一个跨本体、跨场景、跨任务的通用策略学习系统,就像为机器人安装了“跨界大脑”,实现了从“看视频”、“听指令”到“动手操作”的通用控制。

UniVLA:跨本体、跨场景、跨任务的通用策略
我要收藏
点个赞吧
转发分享
评论排行