【ZiDongHua 之方案应用场收录关键词: 武汉人工智能研究院  中科院自动化所  人工智能  通用视觉模型  计算机视觉  模式识别】

成果速递丨武智院提出通用视觉模型FastSAM,比SAM快50倍

由美国 公司提出的能够“分割一切”的视觉基础大模型SAM引起了较大影响,为探索通用视觉大模型提供了一个新的方向。

近日,武汉人工智能研究院和中科院自动化所的研究团队针对“分割一切”任务,提出了FastSAM方法。FastSAM通过引入人工先验的结构设计,大幅降低了原Transformer结构在该通用感知任务上的计算冗余,实现了50倍加速,这一“快速”的特点,有利于视觉基础大模型的行业落地,有利于工业化应用落地。

SAM的“分割一切”功能实现了基于点、框、文字等多类型指令的物体及区域分割。SAM采用了端对端的Transformer结构在千万数量级监督样本上进行训练,在边缘检测、物体检测、显著物体识别、工业异常检测等下游任务上表现了很强泛化性。

武智院研究团队提出的FastSAM对“分割一切”这一通用视觉任务的算法设计范式进行了重新思考,设计了“全实例分割+基于指令的掩码输出”两阶段算法,方法结构如图1所示。

图1 FastSAM方法结构示意图

FastSAM在每个阶段进行了任务和方法协同的方法设计:

(1)第一阶段,利用图像中大多数物体只占据图像局部区域的特点,采用天然具备局部连接特点的卷积算子进行全实例分割网络构建。该结构相较Transformer结构更加紧致,计算成本更低,但依旧保持对物体或图像区域的表示和判别能力。

(2)第二阶段,采用物理空间匹配和图文对齐空间匹配的策略进行基于指令的掩码输出。基于上一阶段的全实例分割掩码:对于基于位置点指令,将该点的位置所关联的最优分割区域进行输出,支持多点模式、背景点抑制;对于基于位置框的指令,将包围框匹配到的最大IoU的分割掩码进行输出;对于文本指令,利用图文对齐网络CLIP将掩码图像区域与文本指令映射到同一个空间,进行相似性计算,进而输出最相似区域。

基于此方法结构,FastSAM在SAM团队开源的SA-1B数据集上随机挑选了2%的图片进行训练就取得了和SAM可匹配的效果,并且速度相较最常用的32×32指令版本的SAM提升了50倍,实现了实时的“分割一切”(图2)。

图2 FastSAM和SAM速度对比

图3展示了FastSAM的分割效果,图4在显著物体分割任务上对比了FastSAM和SAM的分割效果。

图3 FastSAM分割效果示意图

图4 FastSAM和SAM在显著物体分割效果对比

表1和表2 在候选位置生成和边缘检测任务上对比了FastSAM和SAM的效果。

表1 FastSAM在物体候选位置生成任务上的准确率

表2 FastSAM在边缘检测任务上的准确率

该方法已于技术报告的形式发布于预印版网站Arxiv上,并开源了相关代码和演示页面。代码和演示已经上传Github。

研究团队认为,在高质量数据的基础上,面向特定任务引入人工经验,设计任务相关的网络结构,在深度学习模型的准确率和效率上的作用值得进一步研究。

论文地址:

[2306.12156] Fast Segment Anything

http://export.arxiv.org/abs/2306.12156

代码地址:

https://github.com/CASIA-IVA-Lab/FastSAM