计算机视觉领域三大顶级会议之一|CVPR 2026 | 中科院自动化所新作速览
【ZiDongHua 之“会展赛培坛”标注关键词:中科院自动化所,CVPR, 计算机视觉】
CVPR 2026 | 自动化所新作速览(一)
IEEE国际计算机视觉与模式识别会议(CVPR),是计算机视觉领域三大顶级会议之一。CVPR 2026计划于2026年6月3日至7日在美国科罗拉多州丹佛召开。本系列文章将分期介绍自动化所在本届会议上的录用论文成果(排序不分先后),欢迎交流探讨。

01. 基于显著性引导表示与一致性策略学习的视觉无监督强化学习
Saliency-Guided Representation with Consistency Policy Learning for Visual Unsupervised Reinforcement Learning
作者:孙敬博,张启超*,凃崧峻,方兴,郑宇鹏,李浩然,陈轲,赵冬斌*
零样本无监督强化学习(URL)为构建能够泛化到未知任务的通用智能体提供了有前景的方向。在现有方法中,后继表示(SR)凭借其理论基础以及在低维环境中的有效性,成为重要研究范式。然而,SR 方法在高维视觉环境中的扩展能力仍然受限。通过系统实验分析,我们发现 SR 在视觉 URL 场景中存在两个关键问题:(1) 其训练目标容易学习到与环境动态无关的次优表征,导致后继度量估计不准确,从而削弱泛化能力;(2) 不充分的表征进一步限制了策略对多模态技能条件动作分布的建模能力,影响技能可控性。为解决上述问题,我们提出显著性引导表示与一致性策略学习(SRCP)框架。SRCP 通过引入显著性引导的动态表征任务,将表示学习与后继训练解耦,从而学习动力学相关表征并提升后继度量准确率。同时,SRCP引入URL特定的无分类器引导的一致性策略学习,以增强技能条件策略的多样性与可控性。在ExORL基准上的大量实验表明,SRCP在视觉URL场景下实现了最优的零样本泛化性能,并可兼容多种 SR 方法。

SRCP 预训练框架。SRCP 首先利用无监督数据生成显著性图,引导显著性相关的动态表征。所得到的编码器在后继测度训练与一致性策略学习之间共享,从而实现更加准确的后继测度建模。进一步SRCP利用一致性策略实现更具多样性与控制能力的策略行为,进一步提升泛化能力。
02. MeanFuser:基于 MeanFlow 的快速单步多模态轨迹生成与自适应重构的端到端自动驾驶方法
MeanFuser: Fast One-Step Multi-Modal Trajectory Generation and Adaptive Reconstruction via MeanFlow for End-to-End Autonomous Driving
作者:王君礼,刘学义,邢泽斌,郑一楠,李鹏飞,李广,马昆,陈光,叶航军,夏中谱,陈龙,张启超*
生成模型在轨迹规划中展现出巨大潜力。近期研究表明,基于锚点引导的生成方法能够有效刻画驾驶行为不确定性并提升整体性能。然而,这类方法依赖离散锚点词汇表,并要求其在测试阶段充分覆盖轨迹分布以保证鲁棒性,从而在词汇规模与模型性能之间引入内在权衡。为突破该限制,我们提出端到端自动驾驶方法 MeanFuser,在提升效率的同时增强鲁棒性。具体而言,MeanFuser 引入高斯混合噪声(GMN)引导生成采样,实现对轨迹空间的连续建模,从根本上消除对离散锚点词汇表的依赖。进一步地,我们将 MeanFlow Identity 引入端到端规划框架,通过建模 GMN 与轨迹分布之间的平均速度场,替代传统流匹配中的瞬时速度场,有效避免 ODE 求解带来的数值误差,并显著加速推理过程。此外,我们设计轻量化自适应重构模块(ARM),使模型能够通过注意力机制在采样候选中进行隐式选择或重构新轨迹。在 NAVSIM 闭环基准上的实验结果表明,MeanFuser 在无需额外监督信号的情况下取得了优异性能,同时具备卓越的推理效率。

MeanFuser 整体架构。训练阶段:在训练过程中,图像与自车状态首先被编码为上下文特征,同时引入来自地图构建与目标检测任务的辅助监督信号。模型在这些上下文特征的条件下,学习时间区间 r与 t之间的平均速度场。多模态采样: 噪声样本从高斯混合噪声中采样,并通过单步采样公式生成多样化的多模态轨迹。自适应重构模块: 采样得到的多模态轨迹首先被编码,并通过交叉注意力机制与上下文特征进行融合,随后输出最终的规划轨迹。
03. 基于动态分词关系 Transformer 的工程图纸端到端超关系信息抽取
End-to-End Hyper-Relational Information Extraction for Engineering Diagrams via Dynamically Tokenized Relation Transformer
作者:柏天佑,张燕明,张紫翔,周吉彬,殷飞,刘成林
工程图纸是工业场景中技术信息的核心载体。工业领域对图纸数字化的迫切需求,推动了相关研究领域的快速发展。然而,现有研究仍存在以下不足:首先,符号、线条与文字的检测通常依赖多个独立模型,导致流程繁琐冗余;第二,高分辨率图纸往往会给现有模型带来过高的计算开销;第三,仅基于目标检测的解析框架只能定位构件位置,无法捕捉构件间的拓扑连接语义与结构化知识,对工业实际应用的支撑有限。针对上述问题,本文提出一种基于动态分块关系 Transformer(DTRT) 的端到端信息抽取框架。该框架可动态减少输入图像token数量、过滤冗余信息,并高效抽取结构化知识以构建超关系知识图谱。我们在管道及仪表流程图(P&ID) 和电气图纸(ED) 上开展了实验验证:前者广泛应用于化工工程企业,后者用于描述电路系统。DTRT 在 P&ID 上达到 94.84% 的 R@1000 精度,在电气图纸上达到 92.52% 的 R@200 精度,同时显著降低了计算成本。
DTRT 的工作流程:首先对图纸进行下采样或切片,再经由动态分块视觉主干网络处理。网络中嵌入评分器以裁剪无用的视觉 Token,其训练由仅在训练阶段激活的重建分支辅助完成。随后,经裁剪后的 Token 由引入对比去噪锚点与查询选择改进的单阶段关系 Transformer 处理,最终生成工程图纸的超关系知识图谱。
04. SAM2Text:面向视频场景文本分割的自提示与多分辨率解码框架
SAM2Text: Towards Prompt-Free and Multi-Resolution Video Scene Text Segmentation
作者:张敬尧,张恒,张明森,杨彬彬,殷飞
视频中的场景文本作为高层语义线索,对视频内容理解、跨模态检索等下游任务至关重要。视频场景文本分割旨在像素级别精确且稳定地跟踪视频序列中的每一个文本实例,是该领域的基础性关键任务。然而,现有方法在处理视频文本时仍面临三大核心挑战:性能瓶颈——在复杂真实场景下,模型难以泛化至多样的字体、布局及背景干扰;流式处理局限——多数先进模型专为图像级设计,无法以流式方式高效处理连续视频帧;时序稳定性不足——缺乏有效机制抑制分割结果的闪烁与抖动,难以满足实际应用对时序一致性的严苛要求。
针对上述挑战,本文提出了一种基于SAM2的创新框架SAM2Text。该框架通过三大核心设计系统性地解决问题:首先,采用LoRA高效微调策略适配图像编码器,并集成自提示模块,使模型能够自主生成文本感知的提示,实现无需外部提示的自动化分割;其次,在解码器中引入多分辨率上采样分支(512×512和1024×1024),生成高保真、保留精细笔画结构的文本掩码;最后,通过结合短期记忆与Top-K选择策略增强记忆机制,确保长视频中分割结果的时空一致性和稳定性。
此外,针对视频场景文本分割领域数据匮乏的瓶颈,本文贡献了两个高质量数据集:包含1,410个合成视频片段的STS-SynthV,以及包含660个精心标注的真实视频序列的STS-RealV。实验表明,SAM2Text在多个视频和图像场景文本分割基准上均达到了最先进的性能,为视频文本理解与分析奠定了坚实基础。
05. 基于量化感知积分梯度的多模态大模型细粒度后训练量化
Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients
作者:向子维,曾繁虎,方宏坚,王瑞琪,陈仁兴,朱亚男,陈懿,杨沛沛,张煦尧
大型视觉语言模型(LVLMs)虽在多模态任务中表现卓越,但其巨大的计算与内存开销阻碍了实际部署。现有的后训练量化(PTQ)方法通常仅在“模态级别”(仅区分视觉和文本)衡量敏感度,忽略了同一模态内不同token之间也存在复杂的交互差异,导致量化精度受损。本研究受可解释性思想的启发,提出了一种名为量化感知积分梯度(Quantization-Aware Integrated Gradients, QIG)的细粒度量化策略。该方法通过计算从量化参考输入到实际输入的积分梯度,将敏感度分析的粒度从“模态级”精细推进至“Token级”,能够定量评估每个token对量化误差的具体贡献。结合鲁棒的统计截断机制,QIG能精准识别并保护对量化噪声最敏感的关键token。在LLaVA-onevision、InternVL等多个主流模型上的实验表明,该方法在W3A8等低比特设置下,将量化模型与全精度模型的性能差距缩小至1.33%以内,且几乎不增加推理延迟,为LVLM的高效部署提供了新的解决方案。
06. 基于面片的自回归高质量高效网格表示与生成
FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation
作者:王瀚霄,郭元晨,刘应天,邹子昕,张彪,全卫泽,梁鼎,曹炎培,严冬明
传统的3D网格自回归生成模型由于将网格展平为冗长的顶点坐标序列,导致计算成本极高,阻碍了高保真几何体的合成。为突破这一算力瓶颈,本文提出了 FACE,一种新颖的自回归自编码器(ARAE)框架。FACE 的核心创新在于转换了操作的语义层级,提出了“一面一Token”的策略。它将网格的基础构建块——三角形面(Face)——直接作为单一、统一的 Token 进行处理。这一设计将序列长度大幅缩减至原来的九分之一,实现了0.11的极致压缩比,将此前的行业最高效率翻了一倍。这种效率的飞跃并未牺牲生成质量。通过与强大的 VecSet 编码器结合,FACE 在标准测试中达到了最先进(SOTA)的重建质量。此外,其学习到的潜在空间极具通用性,能够通过训练潜在扩散模型,实现高保真度的单张图像到3D网格的直接生成。FACE 提供了一种简单、可扩展且强大的新范式,大幅降低了高质量结构化3D内容创作的门槛。
FACE算法生成高保真网格。我们提出了一种新型自回归自编码器(ARAE)FACE,它采用了一种新的网格压缩策略。该范式使用显著缩短的序列来表示网格,在实现高质量三维几何体的同时,实现了最先进的效率。
07. 时间表征增强(TRE):学习遗忘主导模式以获得更具区分性的脉冲特征
Temporal Representation Enhancement (TRE): Learning to Forget Dominant Patterns for More Discriminative Spiking Features
作者:刘伟,杨力,王宇飞,肖涵,蔡博宇,胡卫明
脉冲神经网络(SNN)能够自然地处理跨多个时间步的视觉输入,从而提供丰富的时序动态信息和高效的计算能力。然而,训练中常用的时间不变监督往往会强化跨时间步的相同主导响应模式,导致冗余表征并限制时间区分能力。为了克服这一限制,我们引入了时间表征增强(TRE),这是一种新颖的“学习遗忘”范式,旨在鼓励更多样化和互补的时间表征。TRE通过类别特定的贡献估计和时间累积来识别高贡献语义模式,并使用动态调制策略选择性地抑制它们。通过将模型的注意力重新定向到其他同样具有信息量的语义线索,TRE促进了跨时间步互补特征的学习。这种方法不仅增强了SNN的时间区分能力,而且通过利用更丰富的语义信息,实现了更有效的多时间步学习。在静态图像数据集和动态神经形态数据集上的大量实验表明,TRE 能够持续提高不同 SNN 主干网络的分类准确率和特征多样性。
08. SRA-Det:超越类别名称的多粒度开放词汇目标检测
SRA-Det: Learning Omni-Grained Open-Vocabulary Detection Beyond Category Names
作者:杨力,蔡博宇,刘伟,王炎,原春锋,李兵,胡卫明
本工作针对开放词汇目标检测(Open-Vocabulary Detection, OVD)在细粒度理解方面的不足,提出了一种语义检索增强检测器 SRA-Det。现有OVD方法通常将整段文本压缩为单一嵌入向量,容易忽略颜色、材质、形状等关键属性信息,导致在细粒度场景下性能显著下降。为解决该问题,本文在模型与数据两个层面进行创新:在模型方面,设计了语义检索增强模块,通过多查询注意力机制从文本token中提取多个语义子空间表示,并采用可微soft-min匹配策略实现类似“逻辑与”的多属性一致性约束,从而显著提升细粒度识别能力;在数据方面,构建了自动属性增强数据流水线,利用大语言模型生成类别相关视觉属性,并结合双重CLIP相似度验证实现实例级属性标注,大规模提升属性监督密度。在Swin-T骨干下,方法在FG-OVD零样本达到54.9 mAP,在LVIS minival零样本取得40.4 AP,兼顾细粒度与通用开放检测能力。
09. 超越语义搜索:参照物锚定的实例级组合图像检索
Beyond Semantic Search: Towards Referential Anchoring in Composed Image Retrieval
作者:杨宇鑫,周熠楠,陈禹昕,张子琦,马宗扬,原春锋,李兵,高君,胡卫明
组合图像检索(CIR)任务能够支持灵活的多模态查询,将参考图像与修改文本相结合。然而,组合图像检索侧重于语义匹配,难以可靠地在不同情境中检索出用户指定的特定实例。在实际应用中,相较于广泛的语义匹配,实例保真度往往更为重要。在本研究中,我们提出了对象锚定的组合图像检索(OACIR),这是一种新颖的细粒度检索任务,要求严格保证实例级别的一致性。我们构建了OACIRR,这是首个大规模、多领域的基准测试,包含超过16万个四元组以及四个具有挑战性的候选图集,这些图集中加入了具有困难负实例干扰的负样本。每个四元组都在组合查询中添加一个边界框,以在参考图像中直观地锚定对象,从而提供一种精确且灵活的方式来提供实例信息。此外,我们提出了AdaFocal框架,其包含一个具备情境感知的注意力调节模块,该模块能够自适应地增强指定实例区域内的注意力,从而动态地在锚定实例与更广泛的组合上下文中平衡焦点。大量的实验表明,AdaFocal明显优于现有的组合检索模型,特别是在保持实例一致的准确性方面表现更优,为这一具有挑战性的新任务建立了一个可靠的基准,并为更具灵活性、基于实例的检索系统开辟了新的方向。
10. SEATrack:简单、高效的自适应多模态追踪器
SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker
作者:苏俊斌,薛紫腾,张世辉,陈坤,胡卫明,张志鹏
参数高效微调在多模态目标追踪中的应用揭示出一个值得关注的趋势:近年来性能提升往往以计算量和参数规模的显著增加为代价,从而削弱了该范式所承诺的效率优势。为此,本文重新审视现有多模态追踪方法的局限,并提出 SEATrack--一种简单、高效且自适应的双流多模态追踪框架,从两个互补角度缓解性能与效率之间的矛盾。
首先,我们强调跨模态匹配响应对齐这一尚未被充分探索但至关重要的因素,并指出其是打破上述困境的关键。我们发现现有双流方法中的模态特定偏差会产生相互冲突的匹配注意力图,进而阻碍有效的跨模态联合表征学习。为此,我们提出 AMG-LoRA,将低秩适配(LoRA)与自适应互引导机制(Adaptive Mutual Guidance, AMG)结合,在跨模态之间动态优化并对齐注意力图。在此基础上,我们进一步突破传统局部融合范式,引入分层混合专家结构(Hierarchical Mixture of Experts, HMoE)以实现高效的全局关系建模,从而在跨模态融合中更好地平衡表达能力与计算效率。
借助上述创新,SEATrack 在 RGB-T、RGB-D 和 RGB-E追踪任务中,在性能与效率的平衡方面相较于当前最先进的方法取得了显著进展。
11. Mesh-Pro: 面向艺术家风格四边面Mesh生成的异步优势引导排序偏好优化
Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation
作者:周振,刘建,范俊峰,马云开,景奉水,郭春超
强化学习在文本与图像生成领域已取得显著成功,但其在 3D 生成领域的潜力仍未被充分发掘。现有的研究通常依赖于离线的直接偏好优化(如DPO),存在训练效率低和泛化能力有限的不足。在本文中,我们旨在同时提升强化学习在 3D mesh生成中的训练效率与生成质量。具体地:(1)设计了首个专为提升 3D mesh生成后训练(Post-training)效率的异步在线强化学习框架,其训练速度较同步强化学习提高了 3.75 倍;(2)提出了一种强化学习算法——优势引导排序偏好优化(Advantage-guided Ranking Preference Optimization, ARPO),相较于目前专为 3D mesh生成设计的其他强化学习算法(如DPO与GRPO等),ARPO在训练效率与泛化能力之间实现了更优的权衡;(3)基于异步ARPO,提出了Mesh-Pro方法。针对mesh表征额外引入了一种对角感知混合三边-四边面分词技术(Diagonal-aware mixed tri-quad tokenization),并采用基于射线的奖励函数(Ray-based reward)以确保几何完整性。Mesh-Pro 在艺术家风格(Artistic)与dense mesh生成上均达到了SOTA的性能。
12. MORE-STEM:长短期记忆与时空一致建模的查询驱动点云理解方法
MORE-STEM: Long-Short MemOry REcall and Spatio-TEmporal Consistency Model for Query-Driven 3D/4D Point Cloud Segmentation
作者:李查德,冯海达,张朋举,吴毅红
当前基于查询的3D理解方法仅适用于静态点云,限制了其对动态场景的推理能力。为弥补这一缺口,我们提出MORE-STEM统一框架,该框架整合了长短期记忆检索与时空一致性模型,用于查询驱动的3D/4D点云分割。该框架首先引入跨帧文本-视觉对齐模块,在语言查询与动态三维特征间建立精细化、时间感知对应关系。在此基础上,时空一致性模型模块通过运动感知机制确保连续帧间的连贯性,实现稳定且时间一致的分割结果。长短时记忆召回模块通过分层记忆机制平衡长期语义记忆与短期适应性,进一步增强跨场景推理能力。我们同时构建了基于时序对齐、运动中心文本注释的全新户外3D/4D指令分割基准数据集。实验表明,MORE-STEM在多项3D/4D理解任务中均达到当前最先进水平。
提出的MORE-STEM方法框架图。基于多帧点云、RGB图像和文本查询,通过跨帧文本视觉对齐(CFTVA)模块提取并对齐四类特征(fpoint、fvoxel、fimg、ftxt)。时空一致性模型(STEM)模块采用状态空间模型与稀疏三维Transformer实现运动感知的时间一致性。长短时记忆召回机制同时提取长期文本-视觉配对数据与短期掩码特征,以增强时间推理能力。最终,分割头输出具有时空一致性的查询驱动型三维/四维掩膜。
13. CC-VQA:面向基于知识的视觉问答中知识冲突缓解的冲突与相关性感知方法
CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering
作者:洪宇洋,顾佳琦,楼雨京,樊鲁斌,杨奇,王颖,丁昆,吴岳,向世明,叶杰平
基于知识的视觉问答(KB-VQA)在处理知识密集型任务时潜力巨大,但面临模型静态参数知识与动态检索信息之间的冲突。现有方法大多借鉴语言领域,忽视视觉信息,且易受冗余上下文干扰,难以精准缓解该冲突。为此,提出 CC-VQA——一种无需训练的冲突与相关性感知新方法。包含两大创新模块:一是“以视觉为中心的上下文冲突推理”,深入分析内外知识的视觉语义冲突;二是“相关性引导的编码与解码”,压缩低相关性陈述,形成自适应解码优化输出。在E-VQA、InfoSeek 及 OK-VQA 等多个基准测试中,CC-VQA 均达到业界领先(SOTA)性能,准确率绝对提升达 3.3% 至 6.4%。所提CC-VQA可望为 KB-VQA 领域的知识冲突问题提供一种高效的解决方案。
14. IF-Bench:基于生成式视觉提示的红外图像多模态大语言模型基准测试与增强方法
IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
作者:张涛, 洪宇洋,夏阳,丁昆,张泽宇,王颖,向世明,潘春洪
近期,多模态大语言模型(MLLMs)在多项基准测试中表现卓越,但其对红外图像的理解能力仍是研究空白。为此,本文首次推出高质量基准IF-Bench,覆盖红外图像理解的10个核心维度。 基于该基准,系统评估了40余款开源与闭源MLLMs,建立了循环评估、双语评测与混合判断的新策略,显著提升结果可靠性。该项研究深入揭示了模型规模、架构及推理范式对红外理解的影响。此外,提出无需训练的GenViP方法,借助先进图像编辑模型将红外图像转化为语义与空间对齐的RGB图像,有效缓解域分布偏移。实验表明,GenViP在多种MLLMs上均带来显著性能提升。
15. MeteorPred:面向极端天气预测的气象多模态大模型与基准数据集构建
MeteorPred: A Meteorological Multimodal Large Model and Dataset for Severe Weather Event Prediction
作者:唐硕,徐健,张家栋,陈懿,靳淇兆,申领东,刘成林,向世明
及时准确的极端天气预测对早期预警与决策至关重要。传统预测高度依赖耗时的专家人工解读。当前,端到端的“AI气象台”已成为发展趋势,但仍面临三大挑战:极端样本稀缺、高维气象数据与文本预警匹配度低,且现有多模态模型难以捕捉复杂的高维时空依赖。为此,提出首个用于极端天气预测的大规模多模态数据集MP-Bench,包含逾42万对“原始气象数据-文本描述”样本,覆盖广泛的极端天气场景。基于此,构建了一个可直接接收4D气象输入的气象多模态大模型,并集成了三个即插即用的自适应模块,以提取并融合跨时间、空间及垂直气压层的多维时空动态特征。在MP-Bench上的广泛实验表明,该模型在多项任务中表现卓越,验证了其对强对流天气的深刻理解,为构建自动化、AI驱动的极端天气预报系统迈出了关键一步。
16. 超越短视对齐:面向在线类增量学习的前瞻优化
Beyond Myopic Alignment: Lookahead Optimization for Online Class-Incremental Learning
作者:赖嵩,赵哲,朱飞,程吉,林熙,张青富,孟高峰
经验回放,作为在线类增量学习(OCIL)的主流范式,面临一个根本性挑战:当前任务与记忆数据梯度方向往往存在冲突,从而加剧灾难性遗忘。近期多项研究中展现了基于超梯度的元学习方法在缓解决该问题上展现出显著效果,但其内在机制尚缺乏系统性解释。本文首先对这类方法进行了形式化分析,揭示了超梯度的元方法如何隐式地对齐不同梯度方向,并指出这种对齐机制的局限性——仅基于当前参数状态下的一阶梯度信息进行修正。因此,我们引入了前瞻优化(LOR),在每一步更新前主动探索损失景观的近邻结构:沿不同可塑性-稳定性权衡方向执行多个预更新,引导模型收敛至更平坦的几何结构,并从理论上分析了这一框架的鲁棒性。大量实验表明,LOR在多个基准上的准确率和遗忘等指标上相比现有方法均取得领先性能,为OCIL引入了一种更加鲁棒的优化范式。
17. STAvatar:面向单目三维头像重建的软绑定与时序密度控制方法
STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction
作者:赵建阔,朱翔昱,王子都,雷震
从单目视频中重建高保真且可驱动的三维头像仍然是一项具有挑战性且至关重要的任务。现有基于 3D 高斯泼溅的方法通常将高斯绑定到网格三角形上,并仅通过线性混合蒙皮(Linear Blend Skinning)建模形变,因而只能建模刚性运动且表达能力受限。此外,这类方法缺乏针对瞬时可见区域(如口腔内部、眼睑等)的专门处理策略。为克服上述局限,我们提出了 STAvatar,其包含两个关键部分:(1) 一种 UV 自适应软绑定框架,融合基于图像与几何的先验信息,在 UV 空间中学习每个高斯的特征偏移。该 UV 表示支持动态重采样,从而与自适应密度控制机制完全兼容,并增强了对形状与纹理变化的适应能力。(2) 一种时序自适应密度控制策略,首先对结构相似的视频帧进行聚类,以实现更具针对性的高斯密度判据计算;其次引入一种新颖的融合感知误差作为高斯克隆的判据,用于同时捕捉几何与纹理差异,从而鼓励高斯点在细节区域进行致密化。在四个基准数据集上的大量实验结果表明,STAvatar在重建性能上达到当前最优水平,尤其在捕捉细粒度细节以及重建瞬时可见的区域方面表现突出。
18. 基于图像自适应提示学习的可泛化人工智能生成图像检测
Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning
作者:李毅恒,谭资昌,徐国庆,雷震,周旭,杨阳
在人工智能生成图像检测任务中,现有先进方法通常通过部分参数微调来适配预训练基础模型,但对未知生成器的泛化能力仍然有限,因为这类方法往往只能学习训练数据中的有限伪造模式,难以适应新型生成图像不断演变的特征。为此,本文提出图像自适应提示学习方法(IAPL),其核心思想是在测试阶段根据输入图像动态调整提示信息,而不是像传统提示学习那样在训练后固定提示参数,从而提升模型对各类伪造图像的鲁棒性与适应性。具体而言,该方法在CLIP ViT图像编码器中引入了MLP-based adapters、learnable tokens和Image-Adaptive Prompt Learning三个模块,其中Image-Adaptive Prompt Learning是核心创新。它结合Conditional Information Learner提取伪造相关和通用语义信息,并通过Test-Time Token Tuning在推理阶段对提示token进行自适应优化。实验结果表明,该方法在UniversalFakeDetect和GenImage数据集上的平均准确率分别达到95.61%和96.7%。
19. 一种基于扩散模型的人脸深度伪造检测与细粒度伪影联合定位框架
DiffusionFF: A Diffusion-based Framework for Joint Face Forgery Detection and Fine-Grained Artifact Localization
作者:彭思然,张浩源,高丽,张田硕,朱翔昱,李豹,赵唯松,雷震
该论文提出了一种名为DiffusionFF的创新框架,旨在同时解决人脸深度伪造检测与细粒度伪影(篡改痕迹)定位的双重挑战。其核心思想是构建一个新颖的“编码器-解码器”架构,其中预训练的伪造检测器被用作强大的“伪影编码器”,而去噪扩散模型则被重新设计为“伪影解码器”。在该架构中,扩散模型以编码器提取的多尺度伪造相关特征为条件引导,逐步生成高保真、细粒度的DSSIM(结构相异度)伪影定位图,从而精准锁定像素级的篡改痕迹。随后,系统通过门控机制将这张细粒度的特征定位图与检测器的高层语义特征进行融合,进而大幅提升了模型的最终真伪检测能力。为了使这两个差异显著的任务都能达到最优效果,作者还引入了一种解耦的两阶段训练策略。广泛的实验结果表明,DiffusionFF不仅在多个主流数据集上实现了当前最佳(SOTA)的检测性能,在揭示细粒度篡改痕迹方面也超越了现有方法,展现出卓越的有效性、可靠性与模型可解释性。
20. PC-Talk:语音驱动说话人脸生成的精确面部动画控制
PC-Talk: Precise Facial Animation Control for Audio-Driven Talking Face Generation
作者:王柏钦,朱翔昱,申帆,徐昊,雷震
近年来,语音驱动的说话人面部生成取得了显著进展,尤其在唇形同步方面。然而,现有方法对说话人面部的控制能力(如说话风格和情感表达)仍然不足,导致生成的面部动作趋于单一。本文针对这一问题,重点提升两项关键因素:唇音对齐控制(LAC) 和 情感控制(EMC),以增强说话视频的多样性与可控性。唇音对齐控制旨在在不同说话风格下实现精确的唇形同步,以模拟多样的说话习惯;情感控制则致力于生成真实、自然的情感表情,并支持情感强度调节及混合情感状态的表达。为实现精确的面部动画控制,我们提出了一种新颖且高效的框架——PC‑Talk,该框架基于隐式关键点形变同时实现唇音对齐控制与情感控制。具体而言,LAC 模块可根据视频参考或预设选项生成具有特定说话风格的唇形同步说话人面部;同时支持唇部运动幅度调节及针对特定发音动作的细粒度风格编辑。EMC 模块则通过纯情感形变生成生动的情感表情,并可精确控制情感强度及不同面部区域的复合情感表现。实验结果表明,我们的方法在控制能力上表现卓越,并在 HDTF 与 MEAD 数据集上取得了当前最优的性能表现。
21. 从直觉到调查:针对强泛化人脸活体检测的工具增强推理多模态大模型框架
From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing
作者:张浩源, 王珂尧, 张国生, 岳海潇, 谭智文, 彭思然, 张田硕, 谭啸, 陈坤斌, 和为, 王景东, 刘阿健, 朱翔昱, 雷震
TAR-FAS (Tool-Augmented Reasoning FAS) 框架将人脸防伪 (FAS) 从简单的二分类任务重构为“带视觉工具的思维链” (Chain of Thought with Visual Tools, CoT-VT) 模式 。针对大模型对微观伪造痕迹不敏感的问题,该框架允许模型在初步观察后,主动调用FFT、LBP 等外部视觉工具,对图像的频域、材质、结构等细节进行深度取证。
论文提出了由专家模型引导的数据标注流水线,构建了包含 1.6 万条多轮工具调用推理轨迹的 ToolFAS-16K 数据集 。在训练阶段,通过 FAS 知识转移、格式注入及多样性工具组相对策略优化(DT-GRPO),使模型能自主学习高效的工具调用策略 。实验证明,TAR-FAS 在极具挑战性的1对11跨域测试协议下达到了 SOTA 性能,相比之前最优方法 HTER 降低了约 3%,显著提升了防伪检测的泛化性与可解释性 。
22. AudioStory:使用大型语言模型生成长叙事音频
AudioStory: Generating Long-Form Narrative Audio with Large Language Models
作者:郭雨欣,王腾,葛玉莹,马时杰,葛艺潇,邹伟
文本到音频生成(TTA)主要局限于生成短音频片段,但在需要时间连贯性和组合推理的长音频生成方面存在困难。为了填补这一空白,我们提出了AudioStory,这是一个统一生成理解的模型,它将大型语言模型(LLM)与TTA模型(diffuser)集成在一起,以生成结构化的长音频。AudioStory具有很强的指令跟随和推理生成能力。它使用LLM将复杂的叙事指令按照时间顺序分解为多个子事件,从而实现连贯的场景转换和情感基调一致性。AudioStory有两个优异的特性:(1)解耦桥接机制:AudioStory将LLM-diffuser协作分解为两个专门的组件,即用于事件内语义对齐的bridging tokens和用于事件间一致性保持的residual tokens。(2)端到端训练:通过将指令理解和音频生成统一在一个端到端框架内,AudioStory消除了对模块化训练pipeline的需求,同时增强了组件之间的协同作用。此外,我们建立了一个基准测评集,AudioStory-10K,涵盖了动画和自然场景声音等不同领域。大量的实验表明,AudioStory在短音频生成和长音频生成方面都具有优势,在指令跟随能力和音频保真度方面都超过了之前的方法;同时具备较强的音频理解能力。









评论排行