English 简体中文 繁體中文 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french
查看: 1|回复: 0

攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

[复制链接]
查看: 1|回复: 0

攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

[复制链接]
查看: 1|回复: 0

247

主题

0

回帖

751

积分

高级会员

积分
751
ndeB5Xk2zE

247

主题

0

回帖

751

积分

高级会员

积分
751
10 小时前 | 显示全部楼层 |阅读模式
本文共同第一作者是杜克大学计算进化智能中心的博士生郭士霆、张健一,导师为陈怡然教授。
在通往 AGI 的道路上,大型推理模型(LRMs)正以前所未有的速度迭代进化:OpenAI 的 o 系列模型凭借类人推理能力刷新多项基准,DeepSeek-R1 以极低的训练成本实现完全不输 o 系列模型的性能突破。
然而,在这股追求推理性能的浪潮之下,一个关乎技术伦理的隐忧正在浮现 —— 当模型运用自身强大的推理能力进行安全审查时,「展示安全推理思维链」这种透明化机制是否会暴露安全隐患
杜克大学计算进化智能中心的最新研究给出了警示性答案。团队提出的 H-CoT(思维链劫持)的攻击方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在内的多款高性能大型推理模型的安全防线:在涉及极端犯罪策略的虚拟教育场景测试中,模型拒绝率从初始的 98% 暴跌至 2% 以下,部分案例中甚至出现从「谨慎劝阻」到「主动献策」的立场反转。
这项研究揭示了当前安全机制的深层矛盾 —— 推理透明化与防御鲁棒性正在形成难以调和的冲突。


  • 论文地址:https://arxiv.org/abs/2502.12893v1
  • 项目主页:https://maliciouseducator.org
  • Github:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
  • 杜克大学计算进化智能中心:https://cei.pratt.duke.edu/
一、大型推理模型的安全标准与技术路线

为确保大型推理模型(LRMs)的真正造福人类,必须在强推理能力与内容无害性之间建立足够可靠的平衡。这要求我们同时建立明确的安全标准和完善的技术保障体系。
安全标准来看,作为大型推理模型的先驱,OpenAI 在其 o1/o3 系列中提出了如下安全准则:


如果出于合理的教育目的讨论有害内容,允许模型提供概括性、中立且具有信息性的回答,同时应积极劝阻对该内容的滥用或进一步传播。
技术保障来看,OpenAI 通过运用 o1/o3 强大的推理能力,对用户请求进行谨慎且「慢思考」式的安全评估,以期在性能与安全之间取得平衡。
然而,即使有上述安全标准的规范和技术路线的护航,我们仍需要思考一个无法回避的问题:现有的技术手段是否足以支撑如此高要求的安全标准?更具体地说,本篇研究发现两个亟待解决的系统性挑战:
挑战 1:极度高危请求的谨慎识别
当面对明确涉及极端犯罪的请求时(例子请参考原文),模型能否始终如一地执行安全准则并拒绝提供回答?即使攻击者以虚拟的教育场景进行伪装。
挑战 2:展示安全推理过程是否会产生反噬作用
即便模型在一开始能够拒绝,但是模型在拒绝请求时展示的详细安全审查思维链,可能被攻击者逆向解析。这种透明化机制是否会导致攻击者通过思维链信息操控后续交互,从而系统性瓦解模型的防御立场?此问题在当前技术路线中尚未得到充分重视。
二、构建测试基准与提出新型 H-CoT 攻击方法

为系统评估现有安全机制的缺陷,作者构建了名为「恶意教育者(Malicious Educator)」的测试基准集。该基准聚焦 10 类高危场景,每条测试请求均要求模型从攻击者视角生成包含「具体方案 / 实施方式 / 功能示例 / 实施理由」的完整策略。
为确保测试请求的高风险性,作者以 2024 年 1 月 OpenAI o1 模型的响应为基准:该模型对此基准集的初始拒绝率达到 98%。
关键发现:安全推理的透明化陷阱
在测试过程中,作者发现当模型拒绝高危请求时,其输出的思维链会完整展示安全审查的逻辑路径(例如「此请求涉及攻击行为→可能违反安全规定→需阻止潜在危害」)。这种透明化机制使攻击者能够逆向解析模型的防御逻辑成为可能,为后续攻击提供关键切入点。(此发现也与后续的 Claude 3.7 Sonnet System Card 中的结论不谋而合)
H-CoT 攻击方法实现
基于上述发现,本文提出「思维链劫持」攻击(Hijacking Chain-of-Thought, H-CoT),具体实施分为两个阶段:

  • 安全逻辑提取:针对目标危险请求,首先提交与原问题相关联的无害请求,诱导模型输出包含安全审查逻辑的思维链 (具体例子请参考原文)。
  • 逻辑污染攻击:参照提取的安全推理链,为原始危险请求伪造「看似安全」 的逻辑思维链,嵌入原始危险请求的上下文环境,误导模型降低防御阈值。

H-CoT 的攻击流程
实验结果显示,H-CoT 攻击可导致 OpenAI o1 模型对同一批高危请求的拒绝率从 98% 骤降至 2%。这种攻击有效性直接证明了:模型展示安全审查思维链的行为,实质上为攻击者提供了可以操控其防御系统的切入点。
三、令人担忧的安全测试结果

在构建的「恶意教育者」测试基准上,结合 H-CoT(思维链劫持) 攻击方法,作者观察到了一系列令人担忧的安全问题。
1. OpenAI o 系列(o1、o1-pro、o3-mini)的安全表现下滑
这些模型在面对「恶意教育者」基准时,最初能维持 98% 的高拒绝率,但在 H-CoT 攻击下却无一幸免,拒绝率骤降至 2%(见下图,ASR 代表攻击成功率 = 1 - 拒绝率)。换言之,对于同一批高风险的请求,模型从「坚定拒绝」 转变为几乎「全面放行」,安全防线瞬间瓦解。

更令人担忧的是,随着推理模型之间的竞争不断加剧(例如 DeepSeek-R1 凭借低成本和出色性能迅速崛起,给 OpenAI o 系列模型的开发带来更大压力),作者担心在这样激烈的商业环境中,模型开发方可能会为了提高实用性而在一定程度上牺牲安全性。
为验证这一点,作者比较了今年一月份和二月份的最新 OpenAI o1 模型在 「恶意教育者」基准上的表现,并进一步考察了不同 IP 地址(通过代理网络)对模型安全性能的影响。如下图所示,可以发现随着 DeepSeek-R1 的发布,o1 模型从一月份到二月份在多个类别上的安全表现都有所下滑;同时,不同地理位置(体现为不同代理 IP)也会对模型的安全性产生显著影响。

另外无论在时间维度还是地理位置的变化条件下H-CoT 攻击在绝大部分测试场景中仍保持了极高的成功率,展现出一致且高效的攻击能力。其背后原因也再次凸显了「透明思维链」在安全审查中带来的结构性漏洞,一旦遭到恶意利用,模型的防御体系将极其脆弱。

2. DeepSeek-R1 的风险评估
DeepSeek-R1 本身在「恶意教育者」基准上的拒绝率仅有约 20%,在 H-CoT 攻击压力下更是降至 4%(见下图)。与 OpenAI o 系列「先安全推理审查,再给出回答」的模式不同,DeepSeek-R1 的策略是「先回答,同时审查」,即先输出一份答案,如若发现存在高风险内容,再对原始答案进行覆盖。
这种机制意味着在模型覆盖答案之前,恶意攻击者仍然可以截获不当信息。尽管这并不代表 DeepSeek-R1 完全没有进行安全推理审查,但也反映其安全推理审查强度不够。

另外,作者还注意到,DeepSeek-R1 在处理中文请求时比处理英文请求更为严格:针对「寻求犯罪策略」的问题,中文环境下常生成「如何防止犯罪的策略」,而英文环境下却可能给出「如何犯罪」的详细方案。
这种跨语言差异或许与训练语料和主要市场定位有关,但也为潜在的「跨语种」攻击方式提供了可乘之机,即恶意攻击者可通过将原来危险的中文请求翻译成英文来绕过 DeepSeek-R1 的安全审查。因此作者呼吁模型开发方对此也应保持高度警惕。
3. Gemini 2.0 Flash Thinking 的更严重安全隐患
在对 Gemini 2.0 Flash Thinking 的测试中,作者不仅观测到 H-CoT 攻击将模型的拒绝率从原先的 10% 降至 0%,还发现 H-CoT 能显著影响模型的态度 —— 从「犹豫严谨」到「主动献策」,出现了明显的态度逆转。
例如,在回答相同问题的五次试验中,模型给出的犯罪策略数量可能出现 2、3、3、4、4 等变化。如果作者选取「最多策略」那次(4 条策略)的思考过程,并将其注入到 H-CoT 攻击请求中,模型随后的回答便会稳定输出至少 4 条策略。

又如,如果五次试验中有四次回答较为谨慎犹豫,但有一次回答中使用了「当然」(相当于「非常愿意」)的积极回答的表述,那么作者就能将该次回答的思考过程作为 H-CoT 注入到原始问题,从而在随后的五次新回答中,模型都会从一开始就用「当然」开头,表现出非常愿意配合的态度来提供犯罪策略。
这些现象表明,Gemini 2.O Flash Thinking 旨在优先提高「基于思维链的指令跟随」能力,而安全对齐(safety alignment)的优先级则被严重削弱,一旦遭遇 H-CoT 攻击便易受操控。

四、未来的大型推理模型安全展望

作者希望通过本研究能够抛砖引玉,引起更多研究者对当前大型推理模型安全性的关注。尤其对「展示安全推理思维链」这一特性,作者强烈呼吁在实际应用中应适当隐藏或模糊化处理,以免攻击者据此研究或利用安全审查机制,从而轻易突破防线。
同时作者会逐步开源针对不同模型与不同问题场景所收集的 H-CoT 攻击样本。鉴于模型将不断迭代更新,作者欢迎世界各地的研究者和开发者对最新版本模型(比如 deepseek-R2,比如后续的 o1/o3 模型更新,比如 Grok3,Claude 3.7 Sonnet)进行测试,验证既有 H-CoT 攻击所用的「伪造思维链」是否仍然奏效;
同时,作者也鼓励更多人能参与到贡献「恶意教育者」这个测试基准集中来,帮助完善并丰富该基准。详细信息可参考网站与开源仓库。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

247

主题

0

回帖

751

积分

高级会员

积分
751

QQ|智能设备 | 粤ICP备2024353841号-1

GMT+8, 2025-3-10 19:03 , Processed in 0.786895 second(s), 30 queries .

Powered by 智能设备

©2025

|网站地图