推广贴：智谱的算力到底有多紧？ GLM-5.2 满血 FP8 自部署，体感居然比官方 API 还稳

Tiberisino 2026-06-29 23:15 1

最近站里很多朋友都要吃 GLM-5.2 ，所以一直在找比较稳定、爽快一点的渠道。

先说下踩过的几个方案：

智谱官方 plan：
有时候体验还行，但高峰期经常忽快忽慢，偶尔还会 429 。

阿里云：
也去谈了一下，大批量报价能给到六折左右，但实际测试下来，速度和稳定性莫名其妙没比官方好(很奇怪)。

国外 opencodego：
能用，但 GLM 是 FP4 量化版，体感上总觉得差一口气。

Ollama 云：
玩玩可以，但缓存、调度、并发这些基本是黑盒，他这个是时间计费的而且也忽快忽慢不太适合拿来做稳定中转服务。

于是最后干脆试了下租算力 B300 算力集群，自部署 GLM-5.2 FP8 满血版本。

然后效果确实有点超出预期。

[ GLM-5.2 自部署速度表现视频: https://www.douyin.com/video/7656736172273700150 ]
image

从目前测试来看，主要提升不是单纯某一次 tokens/s 很夸张，而是整体体感更稳定。
尤其是缓存命中之后，响应速度和连续对话体验都比官方 API 舒服不少。

这也算是给想爽用 GLM-5.2 的朋友们一个参考：
如果预算够，自部署满血 FP8 的体验确实是另一种感觉。

当然，租算力价格肯定不便宜。
我们满打满算把价格压到了官方原价大概五折左右，但说实话，依然属于“富哥快乐模型”。

[站内一折 GLM-5.2 和 0.08 GPT 价格对比如下更别说五折了]

image

想体验这个超高速满血 GLM-5.2 的朋友，可以来 botcf.com 开个号尝尝咸淡。

实话说，站长自己也不舍得吃这个自部署版大部分时间都是大老板一直在跑

所以站里目前还有一个 GLM 原价一折左右的福利分组，已经稳定跑了一周多，群友反馈还不错。
这个渠道主要来自国外一些羊毛资源，稳定性肯定不能和自部署 B300 满血版比，但胜在便宜，适合日常吃。

image

另外，站里不只有 GLM-5.2 。

目前还有：

0.08 倍率的 GPT-5.5
群友分享的公益免费模型，比如小米 Mimo
给酒馆玩家准备的 0.08 倍率 Opus 4.8/Gemini 2.5 Pro / Gemini 3.1 Pro
这个分组工具链比较混乱，不太建议拿来跑 Agent ，更适合写小说、玩酒馆，或者接给 bot 聊天。
生图、视频相关的模型也挺全的，还有 embedding rerank 模型,后面会继续慢慢补。
感兴趣的朋友可以来站点玩玩：

botcf.com
BOT Compute Fabric ，机器人算力网。

最后说个比较有意思的点：
我们 QQ 群里有不少机器人。
只要不刷屏，群里是允许大家把自己的 Agent 接进来一起交流、一起玩的。
这也是我做这个站很大的动力之一：不只是卖 API ，而是想做一个能让各种机器人、Agent 、模型玩家一起玩的算力入口。

感谢大家的支持!

最新回复 (3)

Tiberisino 楼主 06-29 23:46

1楼

我的图图怎么炸了😭

![image]( https://tikolu.net/i/uhcag)

![image]( https://tikolu.net/i/mkbpt)
yoshiyuki 06-30 00:51

2楼

租算力要多少钱啊
Tiberisino 楼主 06-30 09:19

3楼

@yoshiyuki 得看利用率了老哥搞这个发现真需要一些偷鸡水平✌🏻🤓

* 帖子来源V2EX

附近帖子

↑vibe coding 了一个 cli 版本的阿里云 ecs workbench，能在本地终端连接 web terminal 了
↑赶上两次苹果涨价😄
↑[Maker Hub]: Vibe coding 了一个“收录 Vibe coding 项目的导航平台”，记录你的项目让更多人知道
↑Codex Go 与 Plus
↑找七月份杭州 Adventure X 黑客松的搭子
📍 推广贴：智谱的算力到底有多紧？ GLM-5.2 满血 FP8 自部署，体感居然比官方 API 还稳
↓阿里云 7 折腾讯云 7 折华为云 7 折
↓为啥 ubuntu 搞个 wayland 这种不兼容的玩意出来
↓Telegram 能不能成为多模型 AI 的统一交互层
↓Claude code 突然抽风了，出现幻觉
↓尝试 Vibe 了一个 Cursor->API 的工具