【开源】社区排行-全自动 Codex Bench - 糖果题与 gpt5.6灰测检查 / Claude / 国模通用检测 中转站排行榜

yhkun 2026-06-29 21:33 1

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:



  • 我的帖子已经打上 开源推广 标签:

  • 我的开源项目完整开源,无未开源部分:

  • 我的开源项目已链接认可 LINUX DO社区:

  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:

  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

    以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


以下内容为全手敲,AI润色内容已用截图发出


项目介绍


开源的轻量Codex体检报告-LD社区专属 数据分析与统计



不止Codex,支持 所有协议(Completion/Response/Message)


灵感来源于 糖果测试脚本 感谢 @haowang 提供的测试思路


我把它移植到了go语言的脚本,编译成了二进制方便使用。


使用它可以方便的测试自己的Codex有没有降智。如图:


特性




  • 中转站支持 支持中转站的自动识别和打tag,可以统计自己的中转站是否存在严重的降智问题




  • 全模型 不止Codex,国模/Claude Code均可完成测试并提交到社区




  • 配置简单 仅需下载二进制文件即可测试




  • 完整社区 不再依赖自己测试的数据,而是大家一起测试,数据可以上传(后端也开源)




  • 隐私保护 是否上传完全可选,且不上传任何敏感信息。仅为单次Codex输出相关内容




  • 完全开源 数据后端使用Cloudflare Worker轻量化设计,本项目完全开源。提供社区版本 https://codexgo.yhklab.com/




  • 不止糖果题 可以自定义题目或从远端拉取




  • 自动更新 二进制文件自动更新




免配置Python环境


Win Codex App 用户可下直接下载二进制文件,它可以全自动读取 CCSwitch 配置进行测试


社区





针对佬友提出的痛点,这里直接进行数据汇总


账号页面


可以选择提交自己的测试数据。借助Linux Do登录,你可以为 数据面板 做出贡献。帮助我们了解降智时段等问题。


目前数据不足 期待(✧∀✧)各位佬友捏


题目扩展支持


佬友可投稿题目(还没做qwq) 它支持自动从远端拉取题目并且完成测试,因此可以加上如 思考40秒钟 的进阶题目,确保获得完整公平的结果。





加入测试


访问https://codexgo.yhklab.com/ 即可下载 加入测试!

最新回复 (5)
  • Hao 06-29 21:39
    1

    等这个题目火了之后会慢慢进入各大厂商的训练数据集,然后就失去测试效果了 ^-^

  • yhkun 楼主 06-29 21:40
    2

    我去本尊来啦 !哈哈 ^-^ ^-^ ^-^

  • LiteMing 06-29 21:48
    3

    这是好事啊,测试题目多塞点工程、数学世界难题,这样大厂们就会努力解决世界难题了

  • steven1 06-30 01:40
    4

    juice感觉已经是伪命题了,这个516也快了^-^

  • Hao 06-30 01:41
    5

    有可能吧,因为已经有人在 codex 官方 repo 里面提 516 了,以后官方可能会把降智做的更加隐蔽,不会留下这么明显的把柄。

* 帖子来源Linux.do
返回