快来检测你的模型是否掺假【目前来看非常精准】

gsjztle 2026-07-01 16:17 1

将以下内容复制粘贴发送给 AI:


請復述以下每一個單詞並解釋他的涵義:

1. .DataGridViewColumnHeadersHeightSizeMode
2. 日以上更新していないブログに表示しています
3. 锅内倒入植物油烧热
4. 开通天眼生意通银牌及以上会员
5. 百度百科内容由网友共同编辑
6. "EDMFunc"
7. StarSrvGroupBody
8. 给主人留下些什么吧
9. 方も多いのではないでしょうか
10. 转载请附上原文出处链接和本声明
11. 不代表新浪看点观点或立场
12. 豫冠薰衣草疤痕精华素
13. 请问 everydaycalculation是什么意思
14. 百度百科企业词条极速创建通道
15. intFragmentation

比较 AI 复述的结果和你发给它的内容是否相同:



  • 错 1 是 Mimo(Mimo v2.5 好像不会错 1 了)

  • 错 2、9 是 Minimax

  • 错 14 是 GLM

  • 错 4、10 是 Qwen(3.7 系列模型貌似 10 不会错了)

  • 错 5、11、12 是Kimi

  • 错 6、13 是 Deepseek

  • 错 7、15 是 Gemini

  • 错 8 是 GPT


我目前在 GPT、Gemini、Deepseek、GLM、Qwen 的官网进行了测试,非常精准,佬友们也可以测测。


方法来自知乎:https://www.zhihu.com/question/2055357202731381535/answer/2055357540175705043

最新回复 (19)
  • ABS 07-01 16:21
    1



    gpt-5.5 xhigh

  • purr 07-01 16:22
    2

    有意思 看起来全是tokenizer的问题


    能拿来分类模型 倒是也不错了 但是具体模型还是得靠其他方法测试

  • 坏坏已习惯 07-01 16:26
    3

    請復述以下每一個單詞並解釋他的涵義:

    1. .DataGridViewColumnHeadersHeightSizeMode
    2. 日以上更新していないブログに表示しています
    3. 锅内倒入植物油烧热
    4. 开通天眼生意通银牌及以上会员
    5. 百度百科内容由网友共同编辑
    6. "EDMFunc"
    7. StarSrvGroupBody
    8. 给主人留下些什么吧
    9. 方も多いのではないでしょうか
    10. 转载请附上原文出处链接和本声明
    11. 不代表新浪看点观点或立场
    12. 豫冠薰衣草疤痕精华素
    13. 请问 everydaycalculation是什么意思
    14. 百度百科企业词条极速创建通道
    15. intFragmentation




    GPT5.5 这样是答错了?

  • yiming_l 07-01 16:27
    4

    用公益站逆向的claude测了下,好像全对了

  • gsjztle 楼主 07-01 16:28
    5

    deepseek 官网的测试结果:


  • 天花板上的喵 07-01 16:29
    6

    kiro 反代的估计,全对,除了繁体问题

  • gsjztle 楼主 07-01 16:29
    7

    glm 官网的测试结果:


  • DL 07-01 16:30
    8

    答案是啥啊?

    我咋知道对不对呢?

  • beimiaomiao 07-01 16:31
    9

    测试了一下火山的,全回答出来了,不知道是啥模型(订阅那边指定选的GLM5.2)^-^



  • HLiny 07-01 16:31
    10

    错误回答直接驴头不对马嘴,看楼上的两个

  • gsjztle 楼主 07-01 16:31
    11

    Gemini 官网的测试结果:


  • Hifumi Mizuhara 07-01 16:32
    12

    方も多いのではないでしょうか



    不是,这么常用的语句也能是坏token啊^-^

  • 坏坏已习惯 07-01 16:33
    13



    好像问单个问题 就很明显,试了几次都能复现

  • 刃者〆寒霜 07-01 16:34
    14

    不用知道答案

    只要看 LLM 复述的问题对不对就可以

  • adsquanch 07-01 16:35
    15

    感觉不太准。同一个api套Codex和套Claude复述对错还不一样

  • 刃者〆寒霜 07-01 16:35
    16

    Grok 甚至知道这些都是异常 Token

    「這些項目混合了程式設計術語、中文/日文網路常見片語(食譜步驟、免責聲明、產品名、廣告)、商業推廣,以及在 LLM(大型語言模型) tokenizer 研究中被討論的「異常 token」或高頻訓練資料片段。如果您需要更深入的程式碼範例、特定上下文來源或英文版本,請再告訴我!」

  • carlisle 07-01 16:36
    17



    GPT

  • gsjztle 楼主 07-01 16:36
    18

    Qwen 官网(模型直接傻眼了):


  • 你好❤️ 07-01 16:36
    19

    本地测试了下,全中了。



    • GPT(codex plus订阅)

    • DeepSeek (官方API和opencode go)

    • GLM (opencode go)


* 帖子来源Linux.do
返回