本地部署 GLM-5.2 的门槛太高了，根本玩不起！

beginor 2026-06-28 17:51 1

智谱最近发布的 GLM-5.2 口碑很好，于是想在算力服务器上试一下，结果发现，门槛太高了，根本玩不起！

前后尝试了两个版本，分别是：

1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

先说一下 UD-Q4_K_XL 量化版本，下载下来的 gguf 文件共 436G ，4 张 H20 （共 560G 显存），编译最新的 llama.cpp 来运行，结果发现只有 20 ～ 30tokens/秒，更别说并发访问了，基本没法用；

然后是 FP8 量化版本，权重文件共 704G ，8 张 H20 （共 1.1T 显存），下载最新的 vllm 来运行，结果如下：

1. 在上下文类型也是 fp8 的情况下，8 张 H20 ，1.1TB 显存，居然无法开启 1m 上下文；
2. 将上下文长度设置为 384k 之后，vllm 启动提示 1.3 个并发，将上下文长度设置为 256k ，vllm 启动提示 2.5 个并发；
3. 输出大概有 50tokens/秒，吐字速度算还可以；
4. 3 个 claude code 同时连接使用，就能感觉到明显卡顿；

从 vllm 的启动日志看，glm-5.2 的缓存架构还是基于 deepseek 3.2 的，显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多！

以上只是对本地部署测试 glm-5.2 的初步印象，劝大家如果没有 h200/b300 级别的装备的话，还是算了吧！😂

最新回复 (42)

flypei 06-28 17:57

1楼

网上还有说用 mac studio 部署的，4 张 H20 都玩不转，mac studio 真的行么
Hconk 06-28 18:10

2楼

@flypei 四台 512G 内存的 Mac studio 跑 FP8 的应该没什么问题，token 速度看上下文有多大了，小的话 20 多 TPS 应该能跑，大了估计就几 TPS ，闲鱼有些人卖的自部署接口就是用这个整的
shmilypeter 06-28 18:57

3楼

@Hconk 咸鱼还有人卖自部署？牛逼，小黄鱼真的是什么都有的卖啊。估计是那些读博士的卖实验室的资源。

我算过了，自部署这一块靠卖 token 是不可能回本的，自部署扛不住几个并发的。
Hconk 06-28 19:03

4楼

@shmilypeter mac 部署比 nv 的那些 h20/h800 之类的比起来成本低了太多，1.5T 显存 nv 卡少说两三百万能下来，用 mac 统一显存 512g 十来万一台
shmilypeter 06-28 19:19

5楼

@Hconk 现在问题是 512G 内存的 Mac Studio 有价无市了，要是按照以前的价格，搞四台 Mac Studio 部署一个 FP8 的 GLM-5.2 ，供一个十人团队没啥问题的，律所这样的地方是有本地化需求的。
uselesswater 06-28 20:00

6楼

要是干个满血的下来，那得 200 多万吧！
KumaAPI 06-28 20:03

7楼

事实证明不是工作刚需的情况没什么必要本地部署模型使用就算是租服务器开销也不小
2658601135zzh 06-28 20:09

8楼

自部署太费钱费时间了，有那钱都可以正价充值 api 爽蹬了
YaakovZiv 06-28 20:18

9楼

以前还能白嫖云主机平台的 GPU 服务器，现在 GPU 服务器热销，已经基本没法白嫖，必须是先有商务合同，才能白嫖一段时间。我现在直接自己卖临时的 GPU 云主机做部署测试。
damontian 06-28 20:18

10楼

现在这个阶段，自己部署是真不划算
root71370 06-28 20:36

11楼

所以是不是证明官方部署的 api 也是亏本的
bwnjnOEI 06-28 20:49

12楼

没试试 sglang 吗？话说你要想部署生产级响应的需要把所有参数都要搞明白，玩弄多卡高并发的 vllm/sglang 难度不亚于 k8s
slowgen 06-28 21:42

13楼

本地跑大模型还得是 Blackwell 架构的 RTX Pro 6000 ，直接上 NVFP4 量化，真的就一代架构一代神
pikay 06-28 21:54

14楼

话说上午的 GLM Plan 有人抢得到吗？
beginor 楼主 06-28 22:10

15楼

@uselesswater 按现在的价格趋势，200 万估计不够了
beginor 楼主 06-28 22:11

16楼

@slowgen RTX 6000 Pro 刚出来时 6 万，现在翻倍都不止了
beginor 楼主 06-28 22:13

17楼

@bwnjnOEI sgl 更复杂，虽然有官方的指南，时间有限，只测试了 llama.cpp 和 vllm ，这两个都好熟悉
yatseni 06-28 22:35

18楼

起步上最新模型，可不是投入大吗
raycool 06-28 22:37

19楼

现在 H200 贵的离谱
emric 06-28 22:53

20楼

我们公司在 HK H200 部署了 GLM5 升级 GLM5.2 也有点卡。
coefu 06-28 23:33

21楼

牛逼，有钱
garyalen 06-29 01:26

22楼

910C 还需要双机 32 卡呢配套得去到 600w
MaiGe 06-29 02:13

23楼

我女朋友公司本地部署了 GLM5.2 不知道是不是满血
felixcode 06-29 02:41

24楼

都是买了大内存 mac 后发现没啥用处
于是发帖安慰自己，本地大模型虽然没用，但能保护隐私。
germain 06-29 04:08

25楼

目前用的 Ollama 的 plan ，GLM5.2 也有，效果不错
shakaraka 06-29 05:11

26楼

我先不吐槽其他的，我想问一下，你出于本地部署的需求是什么？
yuedashi 06-29 08:22

27楼

@shakaraka 很多单位没法连外网。我就是。。就是内网部署着用
yifangtongxing28 06-29 08:40

28楼

@felixcode 32g 以上到 64 还是比较刚需的 64 以上家用不太合适
sparkssssssss 06-29 08:42

29楼

@Hconk #4 能部署和能正常用还是有区别的吧，我们单位去年 ds3 出圈的时候就买了一台 mac studio 256G 的，5w 多，结果跑 ds 70b 速度都很很勉强，
damichifan 06-29 08:44

30楼

@shakaraka 写代码可能无所谓，但有些技术文件，其实不算高精尖，但不适合对外公开。工程类的很多，也有一些确实是新工艺之类的，不能公开
Mandelo 06-29 08:55

31楼

@shakaraka 涉密项目就要求
sn0wdr1am 06-29 09:01

32楼

其实很简单：

你要内网部署大模型，本地部署大模型，你就砸钱，砸很多很多钱去部署。

那不是一般的多。

小打小闹还是算了。
neoblackcap 06-29 09:15

33楼

LLM 推理引擎各家都有魔改的，不是直接拿 vllm 搞的。赚钱的点就在于缓存命中，缓存命中率约高，就越赚钱
nasmatic 06-29 09:23

34楼

H20 和 H200 显存一样的吧，20 开不了 1m 上下文 200 估计也不行
shakaraka 06-29 09:41

35楼

@yuedashi #27
@damichifan #30
@Mandelo #31

这种场景我理解。那么既然这样公司就应该不计成本给你们部署才对。要么就是和阿里、华为签订合作等途径。

让你们考察如何自行部署，完全不现实。

如果如果都不行，那么你们就肯定只能古法编程了撒。本来完全体智商都不在线，更别说量化版了
duanxianze 06-29 09:42

36楼

AI 写代码目前比人力还贵啊
Chihaya0824 06-29 12:01

37楼

gguf 是这样的，有几点 op 可以试一下，算是在小显存里挣扎的一些经验
1.用 fp8 的 kv cache
2.尝试用 speculative decoding ，就是说你把 MTP 给打开，应该能够让 tps 变高挺多的，后续如果有 dflash 还可能可以提高更多
3.接受质量损失去用 awq 版，但是肯定不会比 fp8 好
都可以试一下，8 个 h20 肯定可以跑的，而且 kvcache 还可以做 tiering ，可以用内存 swap ，变相支持更多用户（一定程度上）
beginor 楼主 06-29 12:16

38楼

@nasmatic H200 的算力是 H20 的十几倍，效果肯定比 H20 好很多
beginor 楼主 06-29 12:18

39楼

@Chihaya0824 我也是一直在小显存里面折腾，Mac ，魔改 4090 ，5090 都测试过不少，这次只是有机会用一下 H20 而已
beginor 楼主 06-29 12:19

40楼

@shakaraka 私有部署应对的是涉密项目，不能联网的单位的需求
jimrok 06-29 12:43

41楼

只能找云厂上，托管到云端，涉密的只能这样了。后续模型更大，私有部署只能是云托管模式。
diudiuu 06-29 13:34

42楼

已经超过这个网站 99%的人了，真有钱

* 帖子来源V2EX

附近帖子

飞读

beginor

主题数
1

帖子数
1

注册排名
3

随机推荐