有什么比较便宜的方法能用到 1000token/s 的模型？

Zigzag 2026-07-04 22:39 1

之前领了小米的 50 块钱额度，申请了小米 mimo ultraspeed 的试用。

在 hermes 配置了一下，惊为天人，太快了，1000 token/s，几乎输入立刻就看到结果。瓶颈只在主机性能上，可惜还是有点贵，哪怕开小米的 plan 也不便宜啊，有没有类似的便宜一点的方案。

最新回复 (10)

绫娘 07-04 22:46

1楼

智商足够还有这个生成速度的也只有mimo了吧，其他的好像也没有那么快速度了
量子Bug 07-04 22:47

2楼

真的假的？是怎么做到的？我还以为这种速度的模型都是小模型呢。没想到 MIMO 可以做到。
Zigzag 楼主 07-04 22:48

3楼

主要是感觉小米的 plan 太坑了，用 ultra speed 据说 credit 会掉的更快
Zigzag 楼主 07-04 22:49

4楼

之前搜索过，好像是专门优化的速度，普通模型预测下一个 token，它预先估计十几个 token，但我也不是 llm 从业者，只看了个大概。
cocw 07-04 22:49

5楼

除了mimo，更好的模型你要很快速度就要上cerebras，但不便宜
量子Bug 07-04 22:50

6楼

我是有听说他们说的 MTP 技术，确实是对于 Agent 场景有极大的加强。但是能优化到这么快也是很令人惊讶的，因为 MTP 是会有不小的概率被主模型驳回，预测未命中重新生成的。
Zigzag 楼主 07-04 22:51

7楼

我其实可以接受一个稍微弱智一点的，不用那么聪明，但起码得有 v4 flash 或者 gemini lite 那种
idamie 07-04 22:55

8楼

Gemini 的官方 API
Zigzag 楼主 07-05 13:22

9楼

试了下，不行还是有点过于低智了……不过速度确实可以
神话大萝 07-05 13:24

10楼

花 100-200 元，收购 gcp （当然，如果你有一个老号。和比较好用的卡，自己开的话，那成本为 0.），用 vertex ，里面的 gemini-3.5-flash 。

这个速度差不多。默认的可能略低一点，不过里面可以开启参数调整。高速模式花费会翻倍，但是速度挺快的，应该接近 1000 tokens/s

* 帖子来源Linux.do

附近帖子

↑手搓K12 送给有缘人速蹬
↑不知道F*** Claude网站检测是否准确
↑『富可敌国』『高级推广』君の星辰周末限时特惠
↑F-Droid 正面临威胁。 Google 正在改变您在您的设备上安装应用的方式。
↑0基础小白的第一个项目
📍 有什么比较便宜的方法能用到 1000token/s 的模型？
↓据部分佬友反映，目前模型鉴别器遭到部分中转站屏蔽，下一步可能这个招|hlwy-ai-checker
↓阿里云Coding Plan上下文长度
↓阿里云token plan按照他们的计算方法额度非常低!
↓大专刚毕业，川内有运维岗能推荐吗？
↓国内航线燃油附加费明起降至 50/100 元

飞读

Zigzag

主题数
1

帖子数
1

注册排名
3

随机推荐