再也不相信中转站所谓满血pro号池了

hickeyhsu 2026-06-28 23:10 1

本人刚好从事LLM agent可靠性方面的科研工作,一直用GPT5.4mini、gpt5.5作为实验对象来研究可靠性评估方法,做了一套题库。之前在gpt-5.4-mini上测试1140次(114task×10trial,即114题,每题重复测10次),成功率稳定在45%(每trail±3%)。

前两天5x额度用完了,着急补实验,把站里最近推广最多的自称满血/纯血pro的3家富可敌国都冲了100块,结果同样的题库task,成功率只有5-15%。

我以为GPT这两天降智的缘故,先暂停了实验。等到今天我pro额度重置,我留了个心眼,把前20task×5trail在官方pro5x和3家中转站都跑了一遍,结果平均成功率如下

官方pro:50%,3家中转站分别25%,20%,23%,全都远低于官方pro。

这时候再看他们吹什么满血pro号池,只觉得好笑。




补充一下,我自己也是CPA+new-api反代出来接到某行业垂类agent里面的,不是用的官方coding agent测的。

目前善良一点的想法是,他们的ip万人骑降智严重。

至于事实如何就自行判断了,反正模型能力肯定远不如自己的pro订阅。

另外,不要问我是哪家了,我没切实证据说人家一定掺水,不能随便乱说。

最新回复 (19)
  • kkqy 06-28 23:12
    1

    这就是一个极度不透明的市场,主打一个愿打一个愿挨

  • sandy 06-28 23:12
    2

    哪一家能不能说出来避避雷?另外,那种检测中转站的网站有没有用?

  • yunyi 06-28 23:12
    3

    其实我觉得还有一个情况就是,他们把pro订阅的反代出来newapi再给你使用,模型的能力是会下降的,即便是纯血模型

  • awz707 06-28 23:13
    4

    要不你把Pro转成API再试试呢,有没有可能是官方订阅和API接入本身就有区别? ^-^

  • led 06-28 23:13
    5

    确实只有掺多掺少的区别,现在我真的比AI便宜了

  • ykhhhh 06-28 23:13
    6

    能不能说一下是哪家的。避雷一下。

  • hickeyhsu 楼主 06-28 23:13
    7

    我自己也是反代CPA+newapi ^-^ 我比较善良的想法只能是他们反代ip脏降智,至于事实如何只有他们自己知道了

  • lanvent 06-28 23:14
    8

    佬我有点好奇,官方plus/中转plus的成功率。 pro号池和plus号池的差距究竟多大 ^-^

  • 默默饭团子 06-28 23:14
    9

    感谢佬避雷,最近还打算冲其中一家的 ^-^

  • cmpdke33 06-28 23:14
    10

    其实已经说了,最起码K和D很容易搜是哪两家




    J也搜到了…

  • dongguatang 06-28 23:14
    11

    检测站应该是没有用的,仅仅靠网页上的几种特征去检测信服度很小啊。你可以看到发帖的这个佬,与自己的api做了很多轮对比才有一定的结论

  • 诺曼底企鹅 06-28 23:15
    12

    没区别,就算是所谓纯pro反代出来降智那对于消费者来说完全可以看成假pro,这种退化反正也不该消费者承担

  • DenisZheng 06-28 23:15
    13

    佬直接说是哪三家啊,我好避雷下。

  • crazycrazyshui 06-28 23:15
    14

    如果是富可敌国似乎是可以直接发帖点名的

  • Th.SevnthO.livion 06-28 23:15
    15

    一个基于概率分布识别任意模型真假的项目,从此告别掺假! 佬,有试过这个吗,能靠这个辨别吗


    以及我也在探索Agent的能力评测相关的方向,想问下佬是怎么控制测试环境的,像这种反代、网络环境等对模型能力的影响存在且可控吗?

  • zcx960 06-28 23:15
    16

    gpt理论上不存在掺水的可能性,除非是把gpt5.4mini伪装成gpt5.5

  • Benny 06-28 23:16
    17

    直接开名把,是哪3家啊?我很想知道,虽然我一直就不大相信中转站 ^-^

  • maryjoya 06-28 23:17
    18

    什么价位的,让我搬起小坂东吃吃瓜

  • awz707 06-28 23:17
    19

    因为感觉gpt的价格已经够低了,掺水反而提高成本

* 帖子来源Linux.do
返回