【ZiDongHua 之“会展赛培坛”收录关键词:星海图 机器人 具身智能  】
  
  深度观点 | 星海图赵行:我们希望为所有具身智能开发者提供好硬件、好数据、好模型和好工具
 
  
  2025年8月11日,星海图首席科学家赵行受邀出席2025世界机器人大会(2025 WRC),并发表主题演讲《前沿技术首发:星海图VLA模型——开启具身智能新纪元》。以下为本次演讲全文实录。
  
  大家好,我是星海图的赵行,很高兴有机会和大家进行分享,今天这个时间非常特殊,因为就在今天我们正式发布了星海图首个VLA模型——星海图G0,以及我们的开源数据集——星海图开放世界数据集。
  
  我们把数据采集机器人部署到了真实的开放世界中进行数据采集,包括一系列家庭生活服务的场景。采集员通过遥操作的方式控制机器人,让机器人去完成复杂的、长程的、日常的任务。
  
  这个数据集包含了500个小时的机器人与物理世界交互的数据,包括了50个不同场景、150个真实世界的任务。在采集完这些数据以后,我们预训练了VLA模型G0,在下游的任务里,G0 模型展现出了强大的泛化能力。例如在机器人铺床的任务上,测试员可以随机打乱场景,机器人会观察环境并做出决策,最后闭环控制完成任务。同时我们在一系列不同的任务和场景上进行了模型测试,比如说不同任务之间的串联,以及双臂操作等。
  
  刚才大家看到的这些展示,都只使用了不到 100 条的数据来进行模型训练进而完成的。在这次 WRC 的展会上,大家也可以来到我们的展台上,实时地看到我们的机器人进行铺床整理的展示。我们在每一个整点都会有机器人自主铺床的任务演示,并有相应的讲解。
  
  下面说一说我们为什么要做这个事情,刚才说到我们发布了两个重磅的成果,第一个是数据集,第二个是我们的模型。其实我自己在AI领域已经工作了十多年了,在这十多年里给我最大的震撼是什么?我觉得第一个大家可能都知道是 OpenAI 在几年前推出的Scaling Law。
 
  
  Scaling Law讲的是什么?讲的是我们的AI 模型,随着它的数据规模扩大,随着计算量的增加以及模型大小的增长,我们的性能将会持续地进行提升。这不是学术界的一个经典论调,而是更偏工业界和产业化的规律,就像摩尔定律一样,我们相信只要计算量能增加五倍到十倍,AI性能就也能够有相应的有五倍到十倍的提升。
  
  另一个对我影响很大的,我相信也是对很多学 AI 的人影响很大的是一个essay——the Better Lesson,这是最近获得图灵奖提名的Richard老师提出的,在对于 AI 过去发展 70 年的观察中,他发现其实很多算法的改进或者说方法的改进其实并不能大幅提升模型的能力。
  
  相反的,随着计算的提升,我们的 AI 才实现了真正的进展。当然这个论调也并不是说我们只有发展算力才是正确的路线,我们仍然要做方法,那有哪些方法呢?在Richard的观点中我们要做元方法 Meta Methods,第一类元方法叫做学习,第二类元方法叫做搜索。那么我们反观现在具身智能的发展,什么是学习?什么是搜索?学习,也就是说我们通过给机器人大量的释义的数据,让机器人学会它应该怎么做。搜索则是通过机器人自主地在环境里进行探索和试错学会什么是正确的。
  
  对应到具身智能的发展里,正好对应着两个重要的技术,第一个是模仿学习,第二个是强化学习。模仿学习对于机器人操作这个领域来说,已经成为了公认的技术路线和方法。从机器人医疗手术实验,到谷歌机器人的桌面操作和具身理解大模型,都使用了模仿学习这条技术路线。
  
  当然我们既然说到模仿学习,就逃不开数据。我们模仿学习的算法可以通过聪明的工程师、聪明的科学家来获得,但是数据我们要怎么获得呢?
  
  大家都知道我们具身智能的数据金字塔,在这个数据金字塔的底端是我们互联网上的视频数据,互联网上的视频数据都是通过众包采集而来的,优点就是我们拥有海量的数据体量,但是这些数据中没有动作的信息,我们可能可以从里面提取出人手动作的信息,但我们没有办法去想象在这样的数据里,机器人的动作该怎样执行。
  
  在金字塔的中间是我们常提到的仿真数据,仿真数据是一种非常有意思的切入方法,我们通过计算来换时间。因为我们可以构建仿真器,并且使用多台计算机同时进行仿真来获取数据,这样数据获取速度会比我们在真实世界进行数据采集更快,但是它也遇到一个巨大的挑战,叫做 sim to real gap,也就是说我们在仿真里获取的数据和真实世界中真实发生的事情相差特别大。
  
  在金字塔的顶端,是大家更经常讨论的真机数据,也就是说我们要带着机器人去真实世界里采集数据。星海图认为真机数据是最重要的,是打破具身智能天花板能力的关键技术。但是不知道大家有没有意识到,即便是真实数据也是有区别的,我们不仅存在 sim to real gap,我们甚至还存在 real to real gap。
 
  
  什么是 real to real gap?我们会有很多团队和公司,大家会积极地去构建机器人的数据采集场,在这些数据采集场里,我们非常希望去构建一些复杂的环境,比如说我们去构建一个家庭环境,这个家庭环境窗明几净、一尘不染,然后就在里面采集了很多的数据。
  
  但是当我们把机器人部署到真实的环境里去以后,东西乱堆乱放,和我们的数据采集场完全不一样,机器人瞬间就傻眼了,他不知道该如何去面对应对这种更加真实和复杂场景。
  
  当意识到这个问题以后,我们在去年底决定开始做这个事情,也就是说我们要进入真实的世界里去采集数据,不希望我们的机器人像赛车场里的赛车一样不停地绕圈,而希望我们的车走到真实的道路上、公开的道路上去面对、应对真实的交通和驾驶场景,我们也希望机器人到真实的家庭里去看一看、走一走、做一做、干一干,最后把数据收集回来,训练我们的具身基础模型。
  
  接下来的内容更多是我们在数据采集标注和模型训练里的一些技术心得的分享。首先我们发现数据标注特别重要,因为我们的目标是训练VLA模型(Vision Language Action),其中Language的存在非常的重要,因为Language定义了我们人类的和机器人的交互界面,同时也会把原本长程的任务切分成小的任务,让机器人能更好地进行执行。
  
  在完成了数据标注以后,我们的模型G0是一个双系统大模型,它分为两部分,系统1和系统2。系统1是我们说到的端到端的快执行模型,系统2是一个慢思考,能和人类交互,把任务进行拆解的慢模型。通过这两个模型联合在我们的开放世界数据集上进行训练,并把他们联合部署到我们的机器人上,能够端到端的完成我们机器人要面对的任务和问题。
  
  可能有人会说为什么我们要把这个机器人的模型分为两层呢?我觉得这个在生物进化上是有一定的道理的。首先我们观察人类,我们人类的这个大脑皮层的视觉感知能力,语言中枢理解能力,以及我们小脑的控制能力,我们的四肢身体运动能力。其实他们并没有运行在同一个频率上,这是为什么呢?这是进化的结果,进化告诉我们分工,合理的分工是必要的,它能够大幅提高能量的利用率,这个对于机器人来说也是适用的,这样我们就能够把这个双系统模型真正地落地部署到机器人上,机器人不再会因为它思考得慢,所以动作也变慢。
  
  我们的系统1和系统2是并行推理的,是不同的速度的两个模型。但是这两个模型并不是孤立的,在进化的过程中,因为数据的原因,他们会自发地进行合理的信息和特征的传递。往未来看,我甚至相信系统1和系统2之间会相互进行转化。例如,当我第一次学一个任务的时候,我要很严密地进行思考,但当我第二次、第三次、第四次做同一个任务的时候,我不再需要我的大脑进行严密地思考,我可以把它这个运动和动作记下来,直接记在我的小脑模型里,自发地、下意识地去完成任务。
  
  接下来再来讲一讲我们的算法设计,我们要分清模型、算法、数据,它是三个不同的概念。首先是算法,在这个大模型时代,有两个最火热的算法,第一个叫做自回归模型Next Token Prediction。第二个算法叫做Diffusion Model 扩散模型,我们发现合理地组合这两种最当下最有用、最有效的大模型训练方法,能够大幅提升具身智能VLA模型的效果。具体来说,我们首先在第一阶段使用跨本体的数据,通过自回归学习的Next Token Prediction的方法去进行第一阶段的模型预训练。
  
  然后使用我们星海图自己采集的单本体高质量的数据去进行第二阶段的预训练,但不同的是第二阶段的预训练我们会给机器人加上一个Action Expert或者是个Action Decoder,它也是一个Transformer模型。通过第二阶段的预训练,机器人能够真正学习在这个单本体上,控制自己身体的能力。
  
  最后第三阶段是一个后训练的阶段,如果我们要面对的任务非常的复杂和长程,那么我们大概率需要采集几条后训练的数据,然后来微调我们的模型。那么这个第二阶段预训练和我们的后训练阶段都使用的是这种扩散模型的学习方法。我们经过了一系列的实验和分析,发现这样的训练方式和组合是一个能让我们得到最好结果的一个方案。
  
  我们在一系列的任务上进行了对我们VLA模型的评测。然后我们也和当下全世界最火的开源模型π0进行了对比,我们发现在许多任务上,我们的预训练模型会优于π0,那么在多个模型平均下来以后的结果,发现我们的G0模型超越π0模型20个百分点,再接下来我们还做了更极限的测试,我们让后训练数据只有 20条,也就是说面对一个非常复杂的问题的时候,我们的预训练模型不再能够进行大规模的后训练,他只能看到少量的示范,我们发现即便在20条数据的情况下,我们的G0模型仍然能够表现得非常出色。
  
  在这些任务里,甚至有一些很有意思的观察,我们发现跨本体预训练的效果远不如单本体预训练的效果。这个也就是告诉我们其实机器人模型的机器人具身智能模型的能力其实是和本体紧密相关的,那么就要去在针对性地对于我们想要使用的具身智能的本体以上去进行数据的采集,这个也告诉我们,实际上具身智能它是一个从模型回到数据,再回看机器人本体这个全链条的事情,我们要把它做好,光靠一家公司是不足够的。
  
  所以说接下来星海图会重点去发展贡献我们的开发者群体,希望为所有具身智能开发者群体提供好的硬件、好的数据、好的预训练模型的 checkpoint 以及后训练微调的工具,希望通过这样的方式聚合更多的开发者,一起把具身智能做好,迈向具身智能和人形机器人的下一个台阶,我们的模型和数据集将在未来的几周开源。欢迎感兴趣的同学、老师、开发者们来关注我们的项目网站,谢谢大家。