先进闭源模型的围墙,反而变成了射向自己的子弹

LLMeme 2026-06-29 17:27 1

看了青龍聖者的文章《GLM-5.2 背后的秘密可能并非蒸馏,而可能是闭源模型所构建的数据飞轮》感觉中转站到底有没有漏数据倒是次要(本来也没法证明)。重要的是提出了一种有趣又合理的推论,即:




  • 假设中转站会出售用户使用先进闭源模型的数据,给开源模型训练




  • 在无法访问的地区,也愿意费尽周折走中转用上先进模型的用户,专业性更高、场景贴近现实、调用信息也更有价值




  • 所以先进闭源模型的围墙,反而可能导致原本官方才能获得的输入和输出数据,源源不断地流出给原本要防的对手




我认为更重要的是,围墙越高、这种效应越明显。现在还有不少境内用户是直接买官方的服务。如果未来KYC进一步严格,只有更专业的势力才能对抗风控,会把这些人也逼去中转站。在导致价格水涨船高的同时,相当于通过价格杠杆帮中转站进一步提纯数据质量,有效信息的密度搞不好比官方自己还要高。


这个帖子的评论区也挺有意思。有人问这样岂不是在说中国模型永远也赶不上西方么?作者认为一旦差距缩小到大约三个月时,大多数用户将转而使用更便宜的开源模型,一个新的数据生态系统将建立起来。我是觉得这有一定道理,或许也解释了为什么国产开源模型还在卷成本。毕竟直到现在,还是没有正经第三方能在性价比上卷赢 Deepseek 官方。也就是说,当开源模型足够好时,可以凭借成本优势让优质数据自然流入官方,先进闭源模型就不会成为天花板了。

最新回复 (18)
  • 白日梦蓝 06-29 17:35
    2

    中转难度越大,中转数据质量越高,这么想确实也没问题

  • 时牧 06-29 17:45
    3

    有人问这样岂不是在说中国模型永远也赶不上西方么?



    靠什么去赶上呀,靠信仰嘛

    能跟紧不落后就已经超出我的预期了

    算力硬件被卡得那么死,感觉这更像是在打持久战,投入少得多反而不怕泡沫破裂

    也没有财务上的压力

    就看别人什么时候撑不下去了

    对比去年大模型爆发式的进步,今年明显已经放缓了很多

  • GrainRainL 06-29 17:56
    4

    那篇文章的逻辑上还是有点问题的,开源模型的后处理本质上并不受最源头的开源商掌控,比如 Cursor Composer 2,基于 kimi 2.5,但 Cursor 并没有公开说过会将微调后的数据反馈回 kimi,这不符合 MIT 开源协议。并且现在 claude 和 GPT 一直在封蒸馏,是否会出现闭源厂商为了封禁蒸馏而在用户侧文件或记录中掺杂一些需要二次输出的内容,比如现在 PC 游戏厂商使用的小蓝熊、腾讯反作弊等这些官方反蒸馏手段,导致中转站或用户端无法拿到无锁文件,就以 A/这种厂商的人品,这都说不好。开源模型和闭源模型到底谁才是胜出者,我觉得很长一段时间还是一超多强的情况。

  • LLMeme 楼主 06-29 18:10
    5

    这篇文章说的不是后处理的信息得不到,这本来也拿不到。关键是训练数据的获取(相当于更广义的“蒸馏”)。

    再怎么掺杂,感觉想彻底防住中转还是蛮难的。思维过程可以隐藏,但最终给用户的输出和执行的工具调用没法隐藏。再怎么加密,中转站都可以转化为明文提供给用户。

  • GrainRainL 06-29 18:27
    6

    确实是如你所说的,中转站这种只要是 A/或OAI他们想做TOB 端就无法避免,但在模型微调时候,只有用户侧的结果是否好做呢?我自己尝试的做过测试,在一定时间间隔后,给于相同模型同一个prompt,同时测试他们在 vscode 和本身的客户端输出结果,发现他们的输出结果也会有偏差,偏差量忽高忽低的,我也不好说是模型本身的问题还是网络的问题,之前跟站内的一个佬聊过,他做过GPT5.5 降智测试,我发现很多佬使用同一个测试脚本,最后得到的降智偏差也完全不一致,如果说当前的思维过程被隐藏,是否还认为当前模型的结果可信呢?

  • botbot 06-29 18:29
    7

    glm的token plan确实很明显,记得之前glm-4.5时候就开始推行接入claude code方案,然后4.6后面的agent效果明显好了很多。不过另一方面,云服务商部署开源模型的成本不会减去用户反馈给模型后续训练数据的收益(假定开源模型厂商当前策略为通过降低价格,换取高价值用户反馈),云服务算力平台的商业模式或许也需调整 ^-^ (即非模型开发的厂商,需要更少部署大参数开源模型)

  • leo 06-29 18:30
    8

    算力发展任重道远。

    基础设施建设走在前列。

    卡住的只有算力。

  • LLMeme 楼主 06-29 18:35
    9

    模型即使不掺水天然也有随机性。现在很多模型思维过程本来就是隐藏的,不用如果。Deepseek 引领 GRPO 之后,训练对推理过程的需求也变低了,所以问题不大。

  • Jhon 06-29 18:43
    10

    “作者认为一旦差距缩小到大约三个月时,大多数用户将转而使用更便宜的开源模型”

    有个前提没说明,为什么开源模型更便宜?从现在训练大模型的方法来看,是否开源跟成本没什么关系

  • LLMeme 楼主 06-29 18:46
    11

    这更像经济学,在权重公开的情况下,全世界所有人都可以竞争实现更便宜的部署

  • QXK 06-29 18:47
    12

    是,不知道为什么感觉今年有点垃圾时间的感觉,没有那种每天期盼更新的感觉了。唯一有点惊喜的神话系列,用都没用过呢a家自己ban了,还是太神秘了

  • 冬马99 06-29 18:47
    13

    因为开源模型算力不够呀 据说几个A的模型都是以T开头为单位的

  • tql 06-29 18:50
    14

    靠蒸馏蒸不出好模型,微软是最大的中转商,按理说也拥有最好的数据来训练,可是至今为止也看不到属于微软的模型,苹果也一样没有自己的模型。

  • 白芸汐 06-29 18:51
    15

    不是开源模型更便宜,而是只有便宜的模型才开源,国模训练模型的成本都不是非常高,只有像qwen的max系列这种训练出来为了拿数据的才会选择闭源,国模的训练成本低原因一是因为电价低,算力中心成本低,二就是没多少算力,只能省吃俭用。拿字节的seedance系列来说,训练成本一定非常高,要不然也不会去东南亚那边儿建设算力中心,而这种成本高昂的模型也是不会开源的。

  • Jhon 06-29 18:52
    16

    仅从现在的情况来看,所有人都可以部署,但很少出现比官方更便宜的情况,更多是解决官方算力不足的问题。

    而且其它厂商部署,也导致官方收入大量减少,减缓了开源模型的发展,也让官方更难通过走量均摊成本

    这一增一减,看不出开源模型更便宜的结论

  • 潘潘 06-29 18:52
    17

    中转的数据绝大部分对蒸馏没毛用,要蒸还得是分布式小号整。

  • 白芸汐 06-29 18:52
    18

    azure当中转商都tmd赚麻了,算是国内比较正常能用到国外模型的渠道了,但是微软就拿出来几个啥也不是的小模型,剩下的毛线都没有

  • LLMeme 楼主 06-29 18:56
    19

    这个事情没法作为论证依据啊,到底是数据用处不大,还是本身这一块能力不行?苹果、微软这种量级的企业就算拿开源模型改改、氪金买OAI的同款数据,应该也不至于现在这么拉。

* 帖子来源Linux.do
返回