武汉人工智能研究院和中科院自动化所的研究团队针对“分割一切”任务，提出了FastSAM方法

发布：tgy 来源：武汉人工智能研究院发布时间：2023-06-25 14:27
第一对焦：武汉人工智能研究院

【ZiDongHua 之方案应用场收录关键词：武汉人工智能研究院中科院自动化所人工智能通用视觉模型计算机视觉模式识别】

成果速递丨武智院提出通用视觉模型FastSAM，比SAM快50倍

由美国公司提出的能够“分割一切”的视觉基础大模型SAM引起了较大影响，为探索通用视觉大模型提供了一个新的方向。

近日，武汉人工智能研究院和中科院自动化所的研究团队针对“分割一切”任务，提出了FastSAM方法。FastSAM通过引入人工先验的结构设计，大幅降低了原Transformer结构在该通用感知任务上的计算冗余，实现了50倍加速，这一“快速”的特点，有利于视觉基础大模型的行业落地，有利于工业化应用落地。

SAM的“分割一切”功能实现了基于点、框、文字等多类型指令的物体及区域分割。SAM采用了端对端的Transformer结构在千万数量级监督样本上进行训练，在边缘检测、物体检测、显著物体识别、工业异常检测等下游任务上表现了很强泛化性。

武智院研究团队提出的FastSAM对“分割一切”这一通用视觉任务的算法设计范式进行了重新思考，设计了“全实例分割+基于指令的掩码输出”两阶段算法，方法结构如图1所示。

图1 FastSAM方法结构示意图

FastSAM在每个阶段进行了任务和方法协同的方法设计：

(1)第一阶段，利用图像中大多数物体只占据图像局部区域的特点，采用天然具备局部连接特点的卷积算子进行全实例分割网络构建。该结构相较Transformer结构更加紧致，计算成本更低，但依旧保持对物体或图像区域的表示和判别能力。

(2)第二阶段，采用物理空间匹配和图文对齐空间匹配的策略进行基于指令的掩码输出。基于上一阶段的全实例分割掩码：对于基于位置点指令，将该点的位置所关联的最优分割区域进行输出，支持多点模式、背景点抑制;对于基于位置框的指令，将包围框匹配到的最大IoU的分割掩码进行输出;对于文本指令，利用图文对齐网络CLIP将掩码图像区域与文本指令映射到同一个空间，进行相似性计算，进而输出最相似区域。

基于此方法结构，FastSAM在SAM团队开源的SA-1B数据集上随机挑选了2%的图片进行训练就取得了和SAM可匹配的效果，并且速度相较最常用的32×32指令版本的SAM提升了50倍，实现了实时的“分割一切”(图2)。

图2 FastSAM和SAM速度对比

图3展示了FastSAM的分割效果，图4在显著物体分割任务上对比了FastSAM和SAM的分割效果。

图3 FastSAM分割效果示意图

图4 FastSAM和SAM在显著物体分割效果对比

表1和表2 在候选位置生成和边缘检测任务上对比了FastSAM和SAM的效果。

表1 FastSAM在物体候选位置生成任务上的准确率

表2 FastSAM在边缘检测任务上的准确率

该方法已于技术报告的形式发布于预印版网站Arxiv上，并开源了相关代码和演示页面。代码和演示已经上传Github。

研究团队认为，在高质量数据的基础上，面向特定任务引入人工经验，设计任务相关的网络结构，在深度学习模型的准确率和效率上的作用值得进一步研究。

论文地址：

[2306.12156] Fast Segment Anything

http://export.arxiv.org/abs/2306.12156

代码地址：

https://github.com/CASIA-IVA-Lab/FastSAM

自动对焦：中科院自动化所人工智能通用视觉模型计算机视觉模式识别

武汉人工智能研究院和中科院自动化所的研究团队针对“分割一切”任务，提出了FastSAM方法

Qt与芯驰科技联袂，数字座舱解决方案再升级

智能制造革命中的利器：中控SCADA的无限可能

直击2024汉诺威展，博世力士乐引领工业技术新航向

园区企业景曜科技智能喷涂机器人投入国铁集团货车车辆段

全面认识电子行业“灯塔工厂”，看这一篇就够了

达闼与中软国际教育科技集团联合发布“AIGC+具身智能机器人”解决方案

持续深耕石油石化行业达梦助力数字化转型升级

“智”造之美！厦门ABB开关工厂中翩翩起舞的ABB机器人

打造智行新体验：北京车展现场解密兆易创新四大解决方案

31个场景66个实例上榜！矿山领域机器人典型应用场景名单公布

光庭信息隆重推出UE for Automotive解决方案丨助力智能座舱迈向三维新纪元

广州地铁X腾讯，让“数智城轨”再升级

横河电机助力单细胞脂质组学领域的革新

冯志君赴东山水务集团所属泽城公司调研“水能调配综合利用技术”项目

打造新质生产力，“AI+工业”应该怎么“加”？

逐梦星河中国电科护航神舟十八号飞天旅途

数字孪生灌区先行先试，淠史杭灌区的智慧之路

黑芝麻智能亮相2024北京车展，以智能汽车芯片赋能"新汽车"

达内教学全面升级：培养精通AI技术的专业人才

央国企拼争4368万密云水库数字孪生项目，江苏南水、中国软件力压群雄

武汉人工智能研究院和中科院自动化所的研究团队针对“分割一切”任务，提出了FastSAM方法

Qt与芯驰科技联袂，数字座舱解决方案再升级

智能制造革命中的利器：中控SCADA的无限可能

直击2024汉诺威展，博世力士乐引领工业技术新航向

园区企业景曜科技智能喷涂机器人投入国铁集团货车车辆段

全面认识电子行业“灯塔工厂”，看这一篇就够了

达闼与中软国际教育科技集团联合发布“AIGC+具身智能机器人”解决方案

持续深耕石油石化行业 达梦助力数字化转型升级

“智”造之美！厦门ABB开关工厂中翩翩起舞的ABB机器人

打造智行新体验：北京车展现场解密兆易创新四大解决方案

31个场景66个实例上榜！矿山领域机器人典型应用场景名单公布

光庭信息隆重推出UE for Automotive解决方案丨助力智能座舱迈向三维新纪元

广州地铁X腾讯，让“数智城轨”再升级

横河电机助力单细胞脂质组学领域的革新

冯志君赴东山水务集团所属泽城公司调研“水能调配综合利用技术”项目

打造新质生产力，“AI+工业”应该怎么“加”？

逐梦星河 中国电科护航神舟十八号飞天旅途

数字孪生灌区先行先试，淠史杭灌区的智慧之路

黑芝麻智能亮相2024北京车展，以智能汽车芯片赋能"新汽车"

达内教学全面升级：培养精通AI技术的专业人才

央国企拼争4368万密云水库数字孪生项目，江苏南水、中国软件力压群雄

持续深耕石油石化行业达梦助力数字化转型升级

逐梦星河中国电科护航神舟十八号飞天旅途