有什么比较便宜的方法能用到 1000token/s 的模型?

Zigzag 2026-07-04 22:39 1

之前领了小米的 50 块钱额度,申请了小米 mimo ultraspeed 的试用。

在 hermes 配置了一下,惊为天人,太快了,1000 token/s,几乎输入立刻就看到结果。瓶颈只在主机性能上,可惜还是有点贵,哪怕开小米的 plan 也不便宜啊,有没有类似的便宜一点的方案。

最新回复 (10)
  • 绫娘 07-04 22:46
    1

    智商足够还有这个生成速度的也只有mimo了吧,其他的好像也没有那么快速度了

  • 量子Bug 07-04 22:47
    2

    真的假的?是怎么做到的?我还以为这种速度的模型都是小模型呢。没想到 MIMO 可以做到。

  • Zigzag 楼主 07-04 22:48
    3

    主要是感觉小米的 plan 太坑了,用 ultra speed 据说 credit 会掉的更快

  • Zigzag 楼主 07-04 22:49
    4

    之前搜索过,好像是专门优化的速度,普通模型预测下一个 token,它预先估计十几个 token,但我也不是 llm 从业者,只看了个大概。

  • cocw 07-04 22:49
    5

    除了mimo,更好的模型你要很快速度就要上cerebras,但不便宜

  • 量子Bug 07-04 22:50
    6

    我是有听说他们说的 MTP 技术,确实是对于 Agent 场景有极大的加强。但是能优化到这么快也是很令人惊讶的,因为 MTP 是会有不小的概率被主模型驳回,预测未命中重新生成的。

  • Zigzag 楼主 07-04 22:51
    7

    我其实可以接受一个稍微弱智一点的,不用那么聪明,但起码得有 v4 flash 或者 gemini lite 那种

  • idamie 07-04 22:55
    8

    Gemini 的官方 API




  • Zigzag 楼主 07-05 13:22
    9

    试了下,不行还是有点过于低智了……不过速度确实可以

  • 神话大萝 07-05 13:24
    10

    花 100-200 元,收购 gcp (当然,如果你有一个老号。和比较好用的卡,自己开的话,那成本为 0.),用 vertex ,里面的 gemini-3.5-flash 。

    这个速度差不多。默认的可能略低一点,不过里面可以开启参数调整。高速模式花费会翻倍,但是速度挺快的,应该接近 1000 tokens/s

* 帖子来源Linux.do
返回