本地部署 GLM-5.2 的门槛太高了，根本玩不起！

beginor 2026-06-28 22:15 1

智谱最近发布的 GLM-5.2 口碑很好，于是想在算力服务器上试一下，结果发现，门槛太高了，根本玩不起！

前后尝试了两个版本，分别是：

unsloth 的UD-Q4_K_XL 量化版本 https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL

智谱官方的FP8 量化版本 https://huggingface.co/zai-org/GLM-5.2-FP8

先说一下 UD-Q4_K_XL 量化版本，下载下来的 gguf 文件共 436G ，4 张 H20 （共 560G 显存），编译最新的 llama.cpp 来运行，结果发现只有 20 ～ 30tokens/秒，更别说并发访问了，基本没法用；

然后是 FP8 量化版本，权重文件共 704G ，8 张 H20 （共 1.1T 显存），下载最新的 vllm 来运行，结果如下：

在上下文类型也是 fp8 的情况下，8 张 H20 ，1.1TB 显存，居然无法开启 1m 上下文；

将上下文长度设置为 384k 之后，vllm 启动提示 1.3 个并发，将上下文长度设置为 256k ，vllm 启动提示 2.5 个并发；

输出大概有 50tokens/秒，吐字速度算还可以；

3 个 claude code 同时连接使用，就能感觉到明显卡顿；

从 vllm 的启动日志看，glm-5.2 的缓存架构还是基于 deepseek 3.2 的，显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多！

以上只是对本地部署测试 glm-5.2 的初步印象，劝大家如果没有 h200/b300 级别的装备的话，还是算了吧！^-^

最新回复 (7)

挑灯看剑 06-28 22:17

1楼

等大手再次优化把

以前ds也有优化的版本
zidon 06-28 22:23

2楼

能打的开源模型本地化对显卡和内存都还是有一定的门槛的。
trader 06-28 22:25

3楼

所以官方部署得多少卡？难怪奥特曼一年亏几百亿，成本太高了。。
ablazespark 06-28 22:32

4楼

个人使用，还是老老实实调API吧，部署不现实
一液千精 06-28 22:35

5楼

之前AMD不是推荐了一款本地跑模型的小主机？推上就有人质疑那个主机的效率，和模型的时效性
白洲梓 06-28 22:36

6楼

话说这种量化部署有人会测试模型+上下文 KV Cache 精度敏感性吗？
202502 06-28 22:45

7楼

今天在 8x Pro6000 试了下英伟达官方新出的NVFP4版，折腾好久都没跑起来。

FlashInfer一直出问题，懒得弄了，等等哪位大佬帮忙踩踩坑吧。

就算跑起来一个小时48块钱，还是有点贵了

* 帖子来源Linux.do

附近帖子

返回

飞读

beginor

主题数
1

帖子数
1

注册排名
3

随机推荐