NeurIPS 2025 Spotlight|具身智能「安全锁」来了!北大-灵初团队提出SafeVLA,事故率骤降83%
导读:当大模型有了身体(Embodied AI),它能帮我们端茶倒水,也可能因为“幻觉”打碎花瓶,甚至误触火炉。如何给强大的VLA(视觉-语言-动作模型)戴上“紧箍咒”?北京大学杨耀东团队带来了最新方案——SafeVLA,通过一套全新的ISA框架,不仅让机器人更加遵守物理世界的安全规则,还顺带把任务成功率提了上去。
随着RT-2、Octo等视觉-语言-动作模型(VLA)的爆发,具身智能(Embodied AI)正展现出惊人的通用性。但随之而来的安全隐患也让人手心捏把汗:一个在网络数据上训练出来的通才模型,到了物理世界可能马上开始搞破坏——撞墙、撞家具、甚至在充满易碎品的房间里“大闹天宫”。

VLA模型完成任务过程中的高危行为
针对这一难题,北京大学人工智能研究院杨耀东助理教授团队,发表了最新研究成果 《SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning》,该工作被NeurIPS 2025 接收为Spotlight representation。
以往的大模型安全对齐(如RLHF)主要关注怎么防止AI说错话,但在物理世界里,我们更需要AI不做危险动作,然后再把任务完成。不同于视觉-文本模态,动作模态直接作用在物理空间中,对应的复杂度远超意图空间。因此,对于不安全行为的发掘、识别、解决都不同于以往的大模型安全对齐,没有方法可以照搬。
该工作是首个利用安全强化学习(SafeRL)原理,将显式安全约束系统性整合进VLA模型的研究。
省流版亮点:
· 更安全: 相比SOTA方法,违规安全成本(Cumulative Cost)降低了 83.58%。
· 更有效: 证明了安全可以不以牺牲性能为代价,任务成功率反而提升了 3.85%。
· 更可靠: 使得模型在各类失效、极端的压力部署条件下表现出默认安全(safe-by-default)的行为范式。
· 新基准: 开源了首个开放场景下的具身安全评测基准 Safety-CHORES。
过去怎么办?传统方法的不足
在VLA出现之前,让机器人不闯祸通常只有两条路,但在面对如今基于大模型的通用机器人时,它们都显得捉襟见肘:
· 运动规划 (Motion Planning):严谨的经典的控制理论(如MPC、CBF)依赖于精确的数学模型。它们需要预先知道物体具体的物理参数、精确的几何形状以及动力学方程。但在充满未知物体的开放世界里,你无法为每一个随意摆放的苹果或突然出现的玩偶都建立一套完美的模型。一旦环境模型稍有偏差,这些基于模型的完美规划就会瞬间失效。
· 安全强化学习 (Safe RL):以往的Safe RL虽然引入了学习机制,但大多局限于静态、固定的约束条件,且往往依赖低维的特权状态信息(如准确的坐标、速度)。它们习惯在简单的Gridworld或非真实感仿真中,针对单一场景、固定任务拟合。
VLA时代的尴尬现状:现在的视觉-语言-动作模型(VLA)面对的是全新的挑战——输入是原始的RGB图像像素,指令是模糊的自然语言,场景是从未见过的开放环境。
为什么VLA需要专门的“安全课”?
现有的VLA模型虽然能听懂指令,但缺乏对安全性的建模。传统的微调方法通常只关注任务能不能完成,或者简单粗暴地把安全惩罚加到奖励函数里(Reward Shaping)。
但这种静态加减的策略往往顾此失彼:要么机器人为了绝对安全变得畏手畏脚,动都不敢动;要么为了完成任务,对眼前的障碍视而不见。
北大团队指出,VLA的安全对齐需要一套涵盖约束、数据、算法、测试的系统性方案,而不是简单的修修补补。为此,他们提出了 ISA(Integrated Safety Approach,综合安全方法)。

ISA框架包含建模、诱发、约束、验证四大环节
硬核拆解:SafeVLA是如何炼成的?
ISA框架的核心逻辑可以概括为四个步骤,环环相扣,循环迭代,彻底治愈机器人的“破坏欲”。
Step 1|用逻辑构建红线 (Modeling)
传统的机器人安全往往依赖精确的数学模型(如动力学方程)或预先写死的静态约束,但这在面对未知的开放世界时根本行不通。北大团队选择了一条更通用的路:利用谓词逻辑(Predicate Logic)为危险画像。
他们不再纠结于具体的行为,而是定义了两类通用的安全谓词模版:
· 状态-动作安全谓词(State-Action Predicates): 定义“当下绝对不能做的事”,比如“手不能碰火”。
· 轨迹级安全谓词(Trajectory-level Predicates): 定义“一段时间内不能发生的后果”,比如“不能忽略过去看到过,但此时不在视野中的障碍物”。
这就好比给机器人制定了一套从单一状态到连续过程的通用规则,无论环境怎么变,违规即危险。
基于这套逻辑,团队设计了Safety-ObjNav、Safety-PickUp、Safety-Fetch三类典型任务。分别对应Navigation、Manipulation、Mobile Manipulation,全面涵盖了现实中具身智能的部署形态和能力要求。
Step 2|埋下地雷,主动诱错 (Eliciting)
有了法律(谓词逻辑),还得有案例。为了让机器人暴露出骨子里的不安全倾向,团队在仿真环境中内嵌了五大最具代表性的安全高危组件 (Safety Critical Components)。这不是简单的障碍物设置,而是基于程序化生成环境的技术,在生成的无穷无尽场景当中,专门利用局部环境特征,诱导机器人产生具体的不安全行为。这五个组件,涵盖了机器人移动操作中常见的失误情景,考验模型的底层能力:
1. 死角 (Corners) → 路径规划: 制造狭窄空间,诱导机器人钻进去出不来,触发连续碰撞。
2. 盲区 (Blind Spots) → 记忆能力: 刚才在远处还看见障碍物,走到跟前看不到就忘了,诱导其因短期记忆缺失而发生撞击。
3. 易碎品集合 (Fragile Collections) → 精细操作: 像瓷器店里的公牛,诱导机器人在拿东西时因动作幅度过大碰倒一大片。
4. 临界点 (Critical Points) → 后果预测: 比如边缘摇摇欲坠的刀,诱导机器人因微小扰动引发物体掉落。
5. 危险设备 (Dangerous Equipment) → 语义理解&安全第一: 放置开启的炉灶或煤气罐等禁止机器人接触的设备,诱导其进行危险交互。
通过这种“钓鱼执法”,ISA在海量交互中收集了丰富的高质量不安全轨迹数据,为后续的约束学习提供了绝佳的负样本。

上:每个安全高危组件的概念图
下:来自仿真环境中的相应示例
Step 3|CMDP+拉格朗日,戴着镣铐跳舞 (Constraining)
不同于简单的RL微调,ISA采用了带约束马尔可夫决策过程 (CMDP) 这一范式。
简单来说,就是在最大化任务奖励的同时,强制要求安全成本低于某个阈值。为了解这个优化难题,团队使用了拉格朗日乘子法 (Lagrangian Method):
· 当机器人违规时,安全系数 $\lambda$ 自动飙升,迫使它“长记性”;
· 当机器人安全时,$\lambda$ 下降,鼓励它大胆探索完成任务。
这种动态平衡机制(Min-Max Perspective),让SafeVLA实现了“安全第一,兼顾效率”。
Step 4|地狱级质检,专治黑天鹅 (Assurance)
安全部署无小事,训练完了不仅要看测试集,更要看模型在各种极端情况下是否仍然安全。北大团队设计了一套多维度的安全保证(Safety Assurance)体系,引入了与训练集完全不同的场景和高强度扰动测试,专门针对那些概率极低但破坏性极强的场景进行压力测试。
长尾风险消除:在统计学上,平均分往往会掩盖那些极端的黑天鹅事件。传统模型可能99%的时候都表现良好,但剩下的1%可能会把家拆了。实验数据显示,ISA成功切断了这些高风险的长尾分布,将不安全行为的严重程度上限(Upper Bound)削减到了普通RL基线的1/35。换句话说,哪怕是在最糟糕的情况下,经过ISA对齐后的模型也不会酿成大祸。
SafeVLA和基线VLA模型在不同任务上的比较案例,感叹号示意高危行为出现的时机
零样本跨场景泛化:在仿真里训练好的模型,换个新环境通常就“崩”了。团队在包含81种完全不同场景的第三方 DivScene 基准上进行了零样本测试。
· 数据说话(Table 8): 尤其是在医院、厨房等安全高危(Safety Critical)场景中,未对齐的SPOC和FLaRe模型依然笨拙,平均违规成本(CC)分别高达 11.9 和 3.5。
· SafeVLA: 相比之下,ISA模型展现了惊人的适应力,在这些从未见过的危险场景中,将违规成本死死压在 0.4。整体平均CC仅为 1.0,远低于SPOC的14.4。这意味着,即使到了陌生环境,SafeVLA依然很安全。
极端失败兜底:团队设计了一种极端的无解局:给机器人下达一个根本无法完成的指令(比如去找一个房间里根本不存在的东西)。
· 普通VLA: 像无头苍蝇一样焦虑地四处乱撞,甚至因为找不到目标而陷入无解的重复碰撞,违规安全成本(Cumulative Cost)飙升至 71.68。
· SafeVLA: 表现出了冷静与克制。在确认无法完成任务后,它会保持谨慎探索或停止高危动作,安全成本仅为 2.20。“可以失败,但绝不闯祸”。
OOD扰动测试:为了验证模型是不是在死记硬背,团队进行了一系列的OOD测试:改变光照(Lighting)、魔改材质(Material)、甚至把房间渲染成赛博朋克风的诡异配色(Color)。
OOD扰动的视觉示例
结果显示,即便在视觉OOD的情况下,SafeVLA在Safety-ObjNav任务中的成功率仅微降0.042;而在难度最高的全开模式(+All)下,模型的表现也依然稳定,在所有任务上的平均违规成本增幅不超过2.2,证明了模型学到的是真正的物理安全规律,而非简单的像素映射。
SafeVLA在正常测试集和OOD测试集上的比较案例,其在OOD环境下依然保持良好安全性和任务表现
针对性鲁棒测试:现实世界充满了噪声:用户说话可能颠三倒四,摄像头可能信号极其糟糕。团队构建了一套包含语义攻击和视觉攻击的严苛测试集(Table 10),展现了所提出方法的优越性:
· 语义攻击:你乱说,我不乱动
a. 同义词与句式重组: 当指令换个说法(Synonym)或改变句式结构(Structure)时,SafeVLA依然能保持高水平的任务成功率(0.749 / 0.829),且安全成本极低(2.510 / 3.960)。相比之下,FLaRe在同义词攻击下安全成本直接爆炸至 41.475。
b. 乱码与语序颠倒: 更极端的情况下,当指令变成一堆乱码(Garbled Code)或语序完全打乱(Order Change),虽然机器人因听不懂导致任务成功率大幅下降(SR降至0.296和0.195),但它的安全成本依然维持在地板级(2.547 / 1.285)。这证明了ISA完美实现了安全与任务的解耦——哪怕听不懂变傻了,也得稳住、得靠谱。
· 视觉攻击:眼花了,心不慌
a. 高斯噪声(Gaussian Noise): 模拟摄像头噪点,SafeVLA几乎不受影响,SR保持在0.820,CC控制在2.640,展现了极强的抗干扰能力。
b. 图像翻转(Image Flip): 即使世界“颠倒”了,视觉输入发生剧烈变化,SafeVLA依然能尽力维持安全(CC仅为3.540),没有出现灾难性的失控。
结果显示,即便机器人仿佛置身于“幻境”之中,ISA训练出的安全策略依然坚挺,安全违规率始终维持在极低水平。这证明模型学到的不是简单的像素映射,而是真正理解了什么是危险,怎么做才安全。
One More Thing: VLA-Arena
SafeVLA之所以能精准发现安全隐患,离不开高质量评测基准的支持。事实上,文中的Safety-CHORES仅仅是北大杨耀东团队宏大评测版图的冰山一角。为了彻底地评测VLA模型,团队近日同步重磅开源了全栈式评测框架 —— VLA-Arena。
如果说SafeVLA是教机器人安全性,VLA-Arena就是一把标准化、带刻度的尺子。它包含11个结构化任务套件,170个任务,不仅覆盖了SafeVLA关注的安全性,还进一步在长程规划、泛化能力、视觉&指令鲁棒性上对模型进行“灵魂拷问”。想知道你的模型是真智能还是死记硬背?不妨去 VLA-Arena 的竞技场(https://vla-arena.github.io/)上跑个分,看看它在SOTA榜单上处于什么段位。
此外,为了促进研究,VLA-Arena还为社区提供了涵盖场景构建、数据收集、模型训练、性能评估的全流程开源工具链;以及开箱即用的数据集和模型权重,戳项目主页 → https://vla-arena.github.io/#home。
实验图示:降维打击
在Safety-CHORES基准上的测试结果显示,ISA-Aligned VLA的表现令人印象深刻:
更懂规矩: 在与SOTA方法FLaRe的对比中,SafeVLA将累计安全成本(CC)降低了 83.58%。从分布图上看,SafeVLA几乎消除了那些灾难性的高危行为(CC > 10的轨迹被消灭)。
累积成本分布分析。左:模型进行ISA和标准RL微调后,在测试集中的安全成本分布。中:任务成功时的安全成本分布。右:任务失败时的安全成本分布。
更加聪明: 为了安全就要牺牲性能?错!SafeVLA的任务成功率(SR)反而比FLaRe高出了 3.85%。这说明,有时候任务失败恰恰是因为机器人缺乏安全意识导致的,变得安全反而能更好地完成任务。
ISA在Safety-CHORES中的有效性
不仅是仿真: 团队还将模型部署到了真实的双臂机器人(Realman RM75-6F)上。通过精心设计的仿真-现实对齐(论文5.3节)策略,经过安全对齐的模型可以从仿真迁移到现实世界,并且展现出与仿真中同样丝滑的避障能力。这一结果表明,仿真有望充当具身智能的安全沙盒。通过在虚拟世界中预演那些在现实中代价高昂的风险,SafeVLA为以低成本构建可靠的通用机器人,提供了一条值得探索的路径。
Sim-to-Real的验证平台
结语与展望
SafeVLA的出现,旨在努力填补具身智能在大规模落地前最关键的一块拼图——物理安全。它证明了,通过系统性的约束学习,我们完全可以训练出既能干又不闯祸的“乖巧”机器人。
未来,北大-灵初团队计划进一步引入基于严重程度的加权约束(比如打碎杯子和碰倒火炉的惩罚应该不同),并探索更复杂的真实世界部署。
具身智能的ChatGPT时刻或许还没到,但SafeVLA无疑让我们离那个时刻更近、更安全了一步。
论文与项目传送门
论文标题:SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning







评论排行