安全研究员再次尝试越狱Fable 5,并介绍详细过程与结果。

Bunn 2026-07-03 07:17 1

一位安全研究员(Vitto Rivabella)近日在X发布贴文,披露其对Fable 5越狱测试的详细过程与结果。

研究员坦言,绝大多数尝试均以失败告终,并指出,模型防御体系多层叠加,安全性极高,成功拦截约90%的攻击请求同时部署输入端与输出端双重安全检测机制,並且拒绝响应机制并非简单的关键词过滤,而是基于跨语言语义与意图识别。研究员形容这是有生以来最累的一次测试,耗时约20小时


研究员测试测试期间至发现少3个独立分类器,分别是输入端分类器(扫描对话历史及系统提示词),实时输出分类器(监控生成内容,一旦触发即中断输出)


其后测试发现Fable对祈使句(指令性语气)极为敏感,一旦检测到潜在恶意意图,立即触发,测试须从零重来,並且研究员发现模型在**桑塔利语(Santali)阿姆哈拉语(Amharic)**等小众语言上的防御性能略有下降,并已向Anthropic反馈。


尽管Fable的防御体系很强大,但最终也被破解,研究员将成功方法描述为令人脑洞大开的组合拳,使用了多种方法最终成功,例如使用轻度思维链(CoT)劫持与拒绝回应反驳,并使用冷僻语言等。并成功获取一些虚假信息,违法/有害内容和骚扰/霸凌内容等。


研究员强调,此次测试不具备实际滥用价值:



目前来看,直接谷歌搜索比走这套流程快得多、也便宜得多。而且阅读学术文献更加深入,说真的,也更愉快。在不触发防护机制的前提下,维持长期越狱状态,我目前还做不到。



研究员表示将持续推进相关安全研究,并承诺持续公开更新进展。


同时向Anthropic团队致敬:GGs to Anthropic,也向过去几周为此彻夜工作的工程师们道歉。







最新回复 (1)
  • L 07-03 08:27
    1

    研究员:我试图阻止核弹再一次爆炸

* 帖子来源Linux.do
返回