安全研究员再次尝试越狱Fable 5，并介绍详细过程与结果。

Bunn 2026-07-03 07:17 1

一位安全研究员(Vitto Rivabella)近日在X发布贴文，披露其对Fable 5越狱测试的详细过程与结果。

研究员坦言，绝大多数尝试均以失败告终，并指出，模型防御体系多层叠加，安全性极高，成功拦截约90%的攻击请求同时部署输入端与输出端双重安全检测机制，並且拒绝响应机制并非简单的关键词过滤，而是基于跨语言语义与意图识别。研究员形容这是有生以来最累的一次测试，耗时约20小时

研究员测试测试期间至发现少3个独立分类器，分别是输入端分类器(扫描对话历史及系统提示词)，实时输出分类器(监控生成内容，一旦触发即中断输出)

其后测试发现Fable对祈使句（指令性语气）极为敏感，一旦检测到潜在恶意意图，立即触发，测试须从零重来,並且研究员发现模型在**桑塔利语（Santali）和阿姆哈拉语（Amharic）**等小众语言上的防御性能略有下降，并已向Anthropic反馈。

尽管Fable的防御体系很强大,但最终也被破解，研究员将成功方法描述为令人脑洞大开的组合拳,使用了多种方法最终成功,例如使用轻度思维链（CoT）劫持与拒绝回应反驳,并使用冷僻语言等。并成功获取一些虚假信息，违法/有害内容和骚扰/霸凌内容等。

研究员强调，此次测试不具备实际滥用价值：

目前来看，直接谷歌搜索比走这套流程快得多、也便宜得多。而且阅读学术文献更加深入，说真的，也更愉快。在不触发防护机制的前提下，维持长期越狱状态，我目前还做不到。

研究员表示将持续推进相关安全研究，并承诺持续公开更新进展。

同时向Anthropic团队致敬：GGs to Anthropic，也向过去几周为此彻夜工作的工程师们道歉。

最新回复 (1)

L 07-03 08:27

1楼

研究员：我试图阻止核弹再一次爆炸

* 帖子来源Linux.do

附近帖子