NeurIPS-2025 | FOCUS:统一视觉-语言建模,驱动分割感知的交互式理解生成统一大型视觉语言模型,三大主流性能领先
【ZiDongHua 之“品牌自定位”标注关键词:中科紫东太初 ,视觉语言模型 ,扩散解码器 】
NeurIPS-2025 | FOCUS:统一视觉-语言建模,驱动分割感知的交互式理解生成统一大型视觉语言模型,三大主流性能领先
近年来,大型视觉-语言模型(LVLMs)在统一视觉理解与生成建模方面展现出巨大潜力,能够同时实现精准的内容理解和灵活的编辑生成。然而,现有方法将"看什么"(what to see)和"如何编辑"(how to edit)割裂对待:它们要么执行孤立的目标分割,要么仅将分割掩码作为局部编辑生成任务的条件提示,往往依赖多个分离的模型。这种设计缺乏深度的跨模态融合和联合特征优化,难以有效统一感知与生成。
为解决这些挑战,紫东太初团队联合鹏城实验室等研究机构提出了 FOCUS:一个统一的大型视觉-语言模型,在端到端框架内集成了分割感知的感知能力与可控的以对象为中心的生成能力。该论文已被 NeurIPS-2025 接收。

图1:FOCUS方法示意图
FOCUS核心创新
从分离到统一的范式转变
传统的可控图像编辑方法主要分为三类:
模块化方法(如 InstructEdit):依赖独立训练的分割器、编辑器和语言处理器,缺乏统一建模
任务路由方法(如 UnifiedMLLM):利用 LLM 动态调度预训练专家模型,但缺少深度特征交互
统一理解-生成模型(如 Emu3、ILLUME+):虽然在单一框架内结合理解与生成,但大多停留在粗粒度的文本驱动控制,难以支持细粒度编辑或对象级操控。

图2:统一模型法对比
FOCUS 突破了这些局限,通过联合优化分割掩码并将其作为空间条件提示来指导扩散解码器,真正实现了分割感知感知与细粒度视觉合成的桥接。
CUS技术架构
三大核心组件协同工作

图3:方法结构图
1. 双分支视觉编码器 + 生成式视觉分词器
FOCUS 采用双分支设计来平衡高层语义理解与底层细节合成之间的冲突:
语义分支:类 CLIP 或 QwenViT 编码器提取全局语义表示
层次分支:基于 ConvNeXt-L 的编码器聚焦细粒度局部感知,提供稳定的多尺度分割支持
为增强生成质量,FOCUS 引入基于 MoVQGAN 的视觉分词器,分别建模语义概念和纹理信息。关键的是,连续的预量化特征被保留并输入到语言模型中,有效缓解了量化带来的信息损失,使模型能够进行更细粒度的多模态理解。
2.渐进式多阶段训练策略图
4:训练流程图FOCUS 采用四阶段渐进训练流程,从低到高逐步增加输入输出分辨率,确保稳定收敛:
阶段 0:预训练双分支视觉分词器和扩散解码器(256×256 → 512×512)
阶段 1:视觉-语言适配器预热(冻结视觉骨干,仅训练投影头)
阶段 2:多模态预训练(联合训练 LLM、视觉适配器和掩码解码器,引入分割监督)阶段
3:指令微调(激活扩散解码器的交叉注意力层,实现区域可控编辑)在预训练和指令微调阶段,研究团队精心设计了多样化且逐渐复杂的任务分布和指令格式,全面增强模型的感知理解和生成能力。
3. 分割掩码驱动的可控生成FOCUS 的一大亮点是将分割掩码作为空间条件注入扩散解码器:分割模块输出固定分辨率的掩码,提供稳定的空间指导掩码被下采样至潜在空间分辨率,通过线性投影转为空间引导序列该序列通过交叉注意力机制注入 UNet 中间层,实现像素级精准编辑这种设计使 FOCUS 能够执行移除、替换、场景转换等多种编辑操作,并支持点、涂鸦、框、掩码等多种区域指定格式。对于视频编辑,在任意单帧上的标注即可指导全片段编辑。
实验验证
三大核心任务全面领先
1. 多模态理解能力
在 POPE、MMBench、SEED、MME-P、MM-Vet 等通用基准以及 DocVQA、ChartQA、OCRBench 等文档基准上,FOCUS(3B 参数)实现了与 Janus-Pro-7B 和 ILLUME-7B 相当的性能,并显著超越同参数量的 ILLUME+。这得益于多尺度高分辨率特征和分割掩码的引入,大幅增强了像素级感知能力。
表1:FOCUS在多模态理解能力的性能评测
2. 可控生成与编辑
图像生成:在 MJHQ-30K 上达到 6.05 FID,在 GenAI-bench 高级类别上取得 0.72 的最高分,展现出卓越的生成质量和语义对齐能力图像编辑:在 Emu Edit 基准上,CLIP-T 达到 0.278,超越专用编辑模型如 InstructPix2Pix 和 MagicBrush,验证了统一模型在理解编辑指令方面的优越性
表2:FOCUS在图像生成的性能评测
表3:FOCUS在图像编辑的性能评测
3. 指称分割精度在 RefCOCO、RefCOCO+、RefCOCOg、gRefCOCO 上,FOCUS 达到业界领先水平(如 RefCOCO testA 上 86.3 mIoU),超越专用分割网络(如 CRIS、LAVT)和基于 LVLM 的方法(如 LISA-7B),证明了端到端框架在像素级目标定位和对齐复杂指称表达方面的强大能力。
表4:FOCUS在图像分割的性能评测
图5:FOCUS图像生成可视化效果图
6: FOCUS图像编辑的可视化效果
论文标题:Fan Yang, Yousong Zhu, Xin Li, Yufei Zhan, Hongyin Zhao, Shurong Zheng, Yaowei Wang, Ming Tang, Jinqiao Wang FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation. NeurIPS-2025. https://arxiv.org/abs/2506.16806
我要收藏
点个赞吧
转发分享









评论排行