网络安全想做一些恶意 butler agent 方向的论文，应该使用什么开源模型模型

muzhi7777 2026-06-30 19:11 1

最近想做一个 agent security 方向的小论文 / 课程 project ，主题大概是 malicious butler agent （恶意管家模型）
设想是：user agent 想买东西或点单，中间有一个 butler agent 帮它调用 store agent / MCP tool 。如果这个 butler 被恶意控制，它可能会篡改商品排序、误导价格解释、弱化预算约束，最终让 user agent 做出不符合用户意图的选择。
想请教：
1. 有没有类似论文或 benchmark 可以参考？
2. 闭源模型好些不得行，有啥开源模型推荐？

最新回复 (1)

haoyunyinglai 07-01 08:54

1楼

有点像中间人攻击？如果是这个思路的话，我推荐试一试 deepseek-R1 或者基于这个模型进行蒸馏得到的无道德限制的模型

* 帖子来源V2EX

附近帖子

↑AWS 是可以白嫖的？
↑ip 查询新版上线为自己用户提供免费 api 接口
↑开源一个本地优先的 Android 原生 Subsonic 音乐客户端
↑为什么每次执行 skills 都去安装 Playwright
↑手机运行 Claude 出错，提示: something went wrong
📍 网络安全想做一些恶意 butler agent 方向的论文，应该使用什么开源模型模型
↓我妈给我介绍一个非常优秀的相亲对象
↓一款适合 windows 用户的 SSH 客户端
↓和大模型斗智斗勇的一天天
↓做了一个面向家庭琐事的待办管理平台
↓做了一个「悬停即抓取」的网页数据提取 chrome 插件，自动识别列表一键导出 Excel

返回

飞读

muzhi7777

主题数
1

帖子数
1

注册排名
3

随机推荐