本地部署 GLM-5.2 的门槛太高了,根本玩不起!

beginor 2026-06-28 22:15 1

智谱最近发布的 GLM-5.2 口碑很好,于是想在算力服务器上试一下,结果发现,门槛太高了,根本玩不起!


前后尝试了两个版本,分别是:



  1. unsloth 的UD-Q4_K_XL 量化版本 https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL

  2. 智谱官方的FP8 量化版本 https://huggingface.co/zai-org/GLM-5.2-FP8


先说一下 UD-Q4_K_XL 量化版本,下载下来的 gguf 文件共 436G ,4 张 H20 (共 560G 显存),编译最新的 llama.cpp 来运行,结果发现只有 20 ~ 30tokens/秒,更别说并发访问了,基本没法用;


然后是 FP8 量化版本,权重文件共 704G ,8 张 H20 (共 1.1T 显存),下载最新的 vllm 来运行,结果如下:



  1. 在上下文类型也是 fp8 的情况下,8 张 H20 ,1.1TB 显存,居然无法开启 1m 上下文;

  2. 将上下文长度设置为 384k 之后,vllm 启动提示 1.3 个并发,将上下文长度设置为 256k ,vllm 启动提示 2.5 个并发;

  3. 输出大概有 50tokens/秒,吐字速度算还可以;

  4. 3 个 claude code 同时连接使用,就能感觉到明显卡顿;


从 vllm 的启动日志看,glm-5.2 的缓存架构还是基于 deepseek 3.2 的,显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多!


以上只是对本地部署测试 glm-5.2 的初步印象,劝大家如果没有 h200/b300 级别的装备的话,还是算了吧!^-^

最新回复 (7)
  • 挑灯看剑 06-28 22:17
    1

    等大手再次优化把

    以前ds也有优化的版本

  • zidon 06-28 22:23
    2

    能打的开源模型本地化对显卡和内存都还是有一定的门槛的。

  • trader 06-28 22:25
    3

    所以官方部署得多少卡?难怪奥特曼一年亏几百亿,成本太高了。。

  • ablazespark 06-28 22:32
    4

    个人使用,还是老老实实调API吧,部署不现实

  • 一液千精 06-28 22:35
    5

    之前AMD不是推荐了一款本地跑模型的小主机?推上就有人质疑那个主机的效率,和模型的时效性

  • 白洲梓 06-28 22:36
    6

    话说这种量化部署有人会测试 模型+上下文 KV Cache 精度敏感性吗?

  • 202502 06-28 22:45
    7

    今天在 8x Pro6000 试了下英伟达官方新出的NVFP4版,折腾好久都没跑起来。

    FlashInfer一直出问题,懒得弄了,等等哪位大佬帮忙踩踩坑吧。

    就算跑起来一个小时48块钱,还是有点贵了

* 帖子来源Linux.do
返回