近日,我院博士研究生刘雪宇在计算机视觉国际顶级会议《IEEE/CVF Conference on Computer Vision and Pattern Recognition》(CVPR)以第一作者身份发表了题为“Plug-and-Play PPO: An Adaptive Point Prompt Optimizer Making SAM Greater”的研究论文。CVPR是国际是计算机视觉与模式识别领域的CCF-A国际顶级学术会议。本届CVPR 2025共收到13,008篇论文投稿,其中2878 篇论文接收,录取率为 22.1%。

该论文第一署名单位为太原理工大学,计算机科学与技术学院(大数据学院)博士研究生刘雪宇为论文第一作者。据官网数据,该研究也是我校在计算机视觉领域CCF-A顶级学术会议上发表的首篇论文。

依托于大量精心整理的训练数据,Segment Anything Model(SAM)在开放世界场景中展现出了卓越的泛化能力,并能有效地依据用户提供的提示进行引导。然而,SAM的类别无关特性使其分割精度高度依赖于提示的质量。
基于以上动机,该论文提出了一种新颖的即插即用双空间点提示优化器(PPO),该方法基于深度强化学习(DRL)进行异构图优化,以增强提示点的分布。PPO无需额外训练即可优化任何任务的初始提示,从而提升SAM的下游分割性能。具体而言,PPO构建了一个双空间异构图,利用预训练模型强大的特征匹配能力构建内部特征矩阵和物理距离矩阵。随后,DRL策略网络通过迭代优化提示点分布,以提升分割预测效果。

在评估方面,该论文在四个公共数据集上进行了实验,并通过消融研究探讨了特征空间与物理空间中提示点优化的必要性及其平衡问题。对比研究表明,PPO使SAM的分割效果超越了当前的一次性(one-shot)方法。此外,不同初始提示的实验结果验证了PPO在各种提示生成方法下的通用性。
该研究将提示优化问题重新定义为一个异构图优化任务,并利用DRL构建了一种高效的即插即用提示优化器。这一方法在各类分割任务中具有广泛的应用潜力,并为点提示优化提供了一个有潜力的解决方案。