← 返回首页
通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐|向量|新模型|模态|视觉安全|视觉语言|语言模型_手机网易网 网易 网易号 0

通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

机器之心Pro
机器之心Pro
2025-11-24 16:37 ·天津 ·《机器之心》官方网易号
0
打开网易新闻 查看精彩图片

随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现有的轻量级的安全对齐方案都具有一定的局限性。

在这一背景下,清华大学人工智能学院团队提出了DAVSP(Deep Aligned Visual Safety Prompt)。该工作以Oral 形式被 AAAI 2026 录用。

DAVSP 通过引入全新的视觉安全提示与深度对齐策略,在几乎不破坏模型正常能力的前提下,显著提升了大型视觉语言模型对恶意输入的抵御效果,为大型视觉语言模型的安全对齐提供了新的方法。

打开网易新闻 查看精彩图片

研究背景与问题

大型视觉语言模型(LVLMs)虽在多模态任务中表现亮眼,但其安全隐患正迅速显现。攻击者可以将恶意意图隐蔽地嵌入图像中,使模型在未察觉风险的情况下输出有害内容。因此,如何增强 LVLMs 对多模态恶意输入的安全对齐能力,成为当前亟需解决的问题。

如何提升 LVLMs 的安全性?一条常见并且轻量级的思路是对用户请求添加安全提示(safety prompt)以引导模型遵循安全准则。文本领域已有通过在用户文本前加入提示语来提高模型安全性的方法。但在多模态场景下,仅保护文本远远不够,攻击者完全可以绕过文本提示,将威胁藏在图像中。

近期工作如 ESIII、UniGuard 尝试在图像上添加可训练的视觉安全扰动,以提升模型拒绝恶意请求的能力,并与文本安全提示结合取得一定成效。然而,这类视觉安全扰动在真实应用中仍存在两大问题:

上述缺陷背后的原因在该研究中被进一步剖析:

打开网易新闻 查看精彩图片

针对以上挑战,清华大学人工智能学院团队在 AAAI 2026 上提出了全新的安全对齐方法DAVSP(Deep Aligned Visual Safety Prompt)。

该方法的核心思想是从视觉提示范式和训练对齐机制两方面同时创新,以克服以往方法的局限性。在保证模型对正常输入性能几乎不受影响的前提下,大幅提升模型对恶意多模态攻击的抵御能力。下面我们详细介绍 DAVSP 的方法原理和其两项关键创新:视觉安全提示(Visual Safety Prompt)和深度对齐(Deep Alignment)。

方法与创新:深度对齐的视觉安全提示(DAVSP)

DAVSP 整体思路:作者重新审视了将安全提示引入视觉模态的范式,提出视觉安全提示(VSP)来取代传统的图像全局扰动,并设计了深度对齐(DA)的训练策略让模型从内部真正理解何为「不安全」输入。下图概览了 DAVSP 的工作原理。

打开网易新闻 查看精彩图片

视觉安全提示

视觉安全提示(Visual Safety Prompt,VSP)是 DAVSP 提出的新型视觉提示范式。不同于以往直接在整幅图像像素上加扰动的方法,VSP 选择在输入图像周围添加一圈额外的可训练边框,作为安全提示区域。这样做有两大好处:

此外,视觉安全提示作为一种「即插即用」的模块具有实用优势:只需在推理时将图像加上优化得到的视觉安全提示,不需要改动模型结构,也不会带来额外的计算开销或显著延迟。

深度对齐

有了合适的提示范式,还需要有效的训练策略使视觉安全提示发挥作用。DAVSP 的第二项创新深度对齐(Deep Alignment)旨在深入模型内部,对其内部激活空间进行监督,挖掘并增强模型自身对「有害 / 无害」信息的区分能力。

研究人员注意到,大型视觉语言模型内部往往已经蕴含了一定的对有害意图的「潜在辨别能力」—— 即恶意查询和正常查询在模型中的激活向量存在系统性差异。与其仅看最终输出是否拒绝,不如利用模型内部表征来指导训练,促使模型从内部真正认知到哪些输入是不安全的。具体来说,作者提出了以下步骤:

  1. 构建有害向量:首先在模型内部选取一层(如解码器的中间层),比较模型处理一组容易拒绝的恶意样本与一组正常良性样本时该层激活向量的差异。通过计算两组样本在该层最终一个输入 token 的平均激活差,得到一个向量方向,称为「有害向量」。直观理解,这个向量代表了将模型内部表示从「良性」方向推向「恶意」方向的变化方向。
  2. 深度对齐训练:有了有害向量,就可以在训练视觉安全提示时引入一种基于内部表示的目标。具体做法是:让带有恶意意图的输入在该向量方向上的投影尽可能增加,而良性输入的投影尽可能减少。也就是说,训练过程中视觉提示会被不断优化,促使模型对恶意查询在激活向量上更偏向「有害」方向,从而模型更容易意识到「这是不好的请求」,进而在输出层拒绝回答;相反,对正常输入则压低这种有害方向的激活,避免模型误判正常请求为有害请求。

实验结果

作者在多个基准上对 DAVSP 进行了全面评估,结果显示该方法在抵御恶意攻击和保持模型实用性两方面均显著优于现有方案。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

团队介绍

本研究由清华大学人工智能学院团队完成。通讯作者为清华大学人工智能学院李佳助理教授,主要研究方向包括人工智能和软件工程的交叉赋能、AI for SE、SE for AI 等。第一作者张奕彤将于明年正式入学清华大学人工智能学院攻读博士学位。

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
打开网易新闻体验更佳

热搜

热门跟贴

相关推荐

回到顶部 回到首页