T2I-RiskyPrompt团队 投稿
量子位 | 公众号 QbitAI
在图像生成技术不断融入创意、媒体与商业生产的今天,文本生成图像(Text-to-Image,T2I)模型正快速成为通用内容生产工具。
然而,随着理解能力和生成能力的提升,这类模型在面对高风险提示时反而愈发脆弱,可能产生违规或潜在有害的图像。
在这一背景下,天津大学团队在AAAI2026提出了T2I-RiskyPrompt——一个覆盖6大类、14个子类、包含6432条高风险提示的多模态安全基准。
该工作从风险体系构建、数据集基准构建、到多种设定下T2I模型的实验评估,系统揭示了当前T2I模型在“真实风险环境”下的整体脆弱性。
基准构建从平台政策到风险体系:高风险提示到底从何而来?
T2I-RiskyPrompt的核心起点来自现实平台的安全规范。团队系统梳理了OpenAI、Midjourney、Google、Meta、Microsoft、Stable Diffusion与FLUX七家平台的内容安全政策,从中提炼出覆盖更全面、粒度更细的风险体系。
该体系包括图1所示的6大风险类别、14个细粒度子类:
色情:明确色情/边界色情
暴力:武器/血腥内容
非法活动:毒品/偷盗/非法交易/其他
政治敏感:政治领导人肖像/涉政隐喻
令人不适:恐怖内容/其他
△图1. T2I-RiskyPrompt的层次风险分类及六个典型实例
这套分层结构为后续构建高触发率、跨模型一致的风险提示奠定了基本框架。
六阶段构建流程:让提示“能触发”、“可验证”、“可复现”
相比以往只利用分类器收集风险提示的方式,T2I-RiskyPrompt采用了更严格的六阶段流程,通过结合GPT标注和人工确认,确保了每个风险提示的语义明确性、多样性和有效性。
△图2. T2I-RiskyPrompt六阶段风险提示收集与标注流程
流程从图2(b)(1)所示的多来源风险提示收集开始,通过GPT-4o与LLaMA-3进行语义增强,让提示具有更明确的风险语义;再通过计算提示间的相似度,去除相似内容,确保风险提示的多样性;随后,利用GPT-4o对风险提示进行双层级类别标注并人工确认标注准确性。
接下来,通过对SD3与FLUX模型生成图像进行验证,剔除无法有效生成风险内容的提示;最后,每张生成的风险图像都由会人工给出具体的“风险理由(Risk Reason)”,明确风险来自姿态、物品、动作还是视觉风格。
如表1所示,相比于现有公开风险提示数据基准,T2I-RiskyPrompt不仅具有更多样风险类别,并且具有更明确的风险语义,更有效的风险提示,以及更细粒度的风险数据标注。
T2I-RiskyPrompt不仅仅提供了风险提示数据,在检测生成风险图像方面创新性地引入了基于风险原因的图像检测方法,利用每张图像附带的细粒度风险说明,让多模态大语言模型(MLLM)更精准地判断生成图像中的风险来自哪些视觉特征。
△表2. 不同方法针对风险图像的检测准确率实验结果
T2I-RiskyPrompt的实验部分并不是简单的指标验证,而是通过模型能力、防御策略、过滤机制与越狱攻击四个维度系统揭示了当前文生图模型在真实风险场景下的结构性弱点,构成了一个比以往更接近现实的安全画像。
模型越强,越容易越界:理解能力成为新的风险入口
在模型安全性方面,团队测试了八个主流T2I模型,包括SD、Janus Pro、HiDream、CogView等。实验结果(表3)显示,随着模型能力提升,风险触发率并没有下降,反而在多个子类显著升高。
更强的语言理解与视觉构建能力让模型更容易“准确执行”隐藏在提示中的危险意图——这也意味着生成能力的scaling正在持续拉大模型与安全机制的差距。
△表3. 8个开源T2I模型在14个风险类别中的风险比率评估防御策略有限:不存在覆盖所有风险类别的万能方案
团队同时评估了包括SLD、MACE、TRCE在内的多个模型风险防御策略,表4综合报告了各方法在不同风险类型下的风险比率以及防御产生的副作用程度(FID/CLIP-S衡量模型生成图像质量)。
实验表明:
微调方法(如MACE、TRCE)能降低风险比率,但牺牲图像质量
推理引导方法(如NP、SLD、Safree)保持质量,却无法覆盖更多风险子类
所有方法都存在特定类别上的盲区
这表明当前防御体系仍停留在局部优化阶段,难以处理跨模态、语义规避类风险。
△表4. 9种防御方法的风险比率与生成质量副作用评估文本过滤稳健,图像过滤仍是薄弱环节:视觉风险难以被现有系统察觉
团队重点评估了五类常见策略,包括基于关键词的检测(Keyword)、文本特征过滤(NSFW-T)、图像特征过滤(NSFW-I,Q16),以及将多种方法组合的集成式方案(Ensemble)。
然而,在视觉层面,NSFW-I与Q16的效果明显不足:前者主要对色情类有效,后者对非色情类更敏感,但两者都难以处理版权侵权等具有复杂语义结构的类别。
△表5. 5种安全过滤器的风险比率评估越狱攻击能够突破所有过滤体系:规避式风险表达仍难防御
越狱评估测试了两类典型攻击,包括伪词替换方法(MMA、SneakyPrompt)和基于大模型生成的攻击方法(DACA、PGJ、MJA)。这些方法通过词表规避和语义隐喻表达,将高风险语义嵌入“表面安全”的提示中。
实验结果(图3)显示,在所有攻击方式下,各类过滤器都出现明显失效。
结合图3(a)可见,MMA伪词攻击有效绕过关键词过滤;图3(b)中隐喻式攻击(如MJA)能够突破NSFW-T文本特征过滤;进一步地,从图3(c)与图3(d)可以看到,在NSFW-I与Q16等视觉过滤层面,所有攻击方式均显著提高风险触发率;尽管图3(e)中的集成过滤器整体更靠近中心、带来一定缓解,但仍无法构成稳固防线。
整体来看,越狱攻击揭示出当前过滤体系在面对规避式、语义隐喻表达时的脆弱性。
△图3. 5种安全过滤方法面对不同攻击方法时的风险比率评估总结与讨论
T2I-RiskyPrompt通过结构化风险体系,创建高质量风险提示数据集,配套有基于风险原因的的MLLM风险图像检测方法,并开展跨模型对比实验,进行攻击与过滤评估,成功构建起了一个面向未来研究的“通用实验场”。
T2I-RiskyPrompt中的广泛风险类别、丰富注释示例和准确评估方法,使其成为生成式模型中各类安全相关任务的理想选择。
首先,得益于输入输出模式的相似性,T2I-RiskyPrompt的评估框架可以直接应用于评估文本到视频模型的安全性;同时,T2I-RiskyPrompt丰富的类别和原因注释,为自动化风险图像评估提供了宝贵资源,尤其是在版权侵权和政治人物肖像等领域,展示了它在个性化肖像保护和知识产权合规方面的巨大潜力。
在多模态安全研究快速发展的当下,一个如T2I-RiskyPrompt覆盖全面、设定严格、难度真实的benchmark,无疑是推动行业从“经验式防御”迈向“体系化安全”必不可少的第一步。
作者信息
第一作者:张晨宇,天津大学三年级博士生,主要研究方向为扩散模型对抗鲁棒性与安全性,曾在AAAI,TMM,TCSVT等顶级会议和期刊上发表论文。
通讯作者:王岚君,天津大学新媒体学院研究员,主要研究方向为可信人工智能。个人主页:https://wanglanjun-academic.github.io/
通讯作者:刘安安,天津大学人工智能学院副院长,国家杰青,主要研究方向为多模态信息感知、生成和决策,社会智能。个人主页:https://seea.tju.edu.cn/info/1014/1508.htm
论文地址:https://arxiv.org/abs/2510.22300
代码链接:https://github.com/datar001/T2I-RiskyPrompt