近日,我校计算机科学与工程学院余璐教授在视觉语言模型零样本对抗鲁棒性方向的最新成果被人工智能和计算机视觉顶级期刊TPAMI接收。论文题目为“Complementary Text-Guided Attention for Zero-Shot Adversarial Robustness”。该论文第一作者为余璐教授,由学生章海洋参与、徐常胜研究员指导完成。
当前视觉语言模型正改变着机器理解世界的方式,以CLIP为代表的模型,凭借强大的零样本能力在多个领域得到了广泛应用。然而,模型在面对精心构造的对抗扰动时,判别结果可能发生错误预测,影响模型在现实场景中的广泛应用。因此,系统地理解其在对抗攻击下所面临的潜在风险,并提出有效的缓解机制,将成为保障AI系统可信性与可靠性的关键前提。
针对这一前沿问题,论文系统揭示了一个关键现象。对抗扰动不仅改变图像像素,还显著干扰模型内部的文本引导注意力分布,使得模型关注区域发生结构性偏移。基于这一发现,论文提出了TGA-ZSR,从注意力对齐的角度出发,在不破坏原有泛化能力的前提下,有效提升零样本对抗鲁棒性。在进一步的研究中,论文发现单一类别提示所引导的前景注意力,在复杂场景中可能出现错误聚焦,影响模型的鲁棒性。为此,论文在文本引导注意力的基础上提出了互补文本引导注意力Comp-TGA,融合类别提示与非类别提示引导的前景和背景注意力,使模型能够更加精准地聚焦目标区域。实验结果显示,论文提出的两种方法在16个基准数据集上均实现了显著的鲁棒性提升,进一步验证了注意力机制在增强模型鲁棒性中的关键作用。

此次余璐教授的科研成果被TPAMI接收,再次标志着我校教师和科研团队在人工智能、计算机视觉研究领域取得了新的重要突破。
据悉,TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)是计算机视觉与模式识别领域公认的顶级学术期刊之一,由IEEE主办,在中国计算机学会认定的人工智能领域四大A类期刊中排名靠前。