本地部署 GLM-5.2 的门槛太高了,根本玩不起!

beginor 2026-06-28 17:51 1

智谱最近发布的 GLM-5.2 口碑很好,于是想在算力服务器上试一下,结果发现,门槛太高了,根本玩不起!

前后尝试了两个版本,分别是:

1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

先说一下 UD-Q4_K_XL 量化版本,下载下来的 gguf 文件共 436G ,4 张 H20 (共 560G 显存),编译最新的 llama.cpp 来运行,结果发现只有 20 ~ 30tokens/秒,更别说并发访问了,基本没法用;

然后是 FP8 量化版本,权重文件共 704G ,8 张 H20 (共 1.1T 显存),下载最新的 vllm 来运行,结果如下:

1. 在上下文类型也是 fp8 的情况下,8 张 H20 ,1.1TB 显存,居然无法开启 1m 上下文;
2. 将上下文长度设置为 384k 之后,vllm 启动提示 1.3 个并发,将上下文长度设置为 256k ,vllm 启动提示 2.5 个并发;
3. 输出大概有 50tokens/秒,吐字速度算还可以;
4. 3 个 claude code 同时连接使用,就能感觉到明显卡顿;

从 vllm 的启动日志看,glm-5.2 的缓存架构还是基于 deepseek 3.2 的,显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多!

以上只是对本地部署测试 glm-5.2 的初步印象,劝大家如果没有 h200/b300 级别的装备的话,还是算了吧!😂
最新回复 (42)
  • flypei 06-28 17:57
    1
    网上还有说用 mac studio 部署的,4 张 H20 都玩不转,mac studio 真的行么
  • Hconk 06-28 18:10
    2
    @flypei 四台 512G 内存的 Mac studio 跑 FP8 的应该没什么问题,token 速度看上下文有多大了,小的话 20 多 TPS 应该能跑,大了估计就几 TPS ,闲鱼有些人卖的自部署接口就是用这个整的
  • shmilypeter 06-28 18:57
    3
    @Hconk 咸鱼还有人卖自部署?牛逼,小黄鱼真的是什么都有的卖啊。估计是那些读博士的卖实验室的资源。

    我算过了,自部署这一块靠卖 token 是不可能回本的,自部署扛不住几个并发的。
  • Hconk 06-28 19:03
    4
    @shmilypeter mac 部署比 nv 的那些 h20/h800 之类的比起来成本低了太多,1.5T 显存 nv 卡少说两三百万能下来,用 mac 统一显存 512g 十来万一台
  • shmilypeter 06-28 19:19
    5
    @Hconk 现在问题是 512G 内存的 Mac Studio 有价无市了,要是按照以前的价格,搞四台 Mac Studio 部署一个 FP8 的 GLM-5.2 ,供一个十人团队没啥问题的,律所这样的地方是有本地化需求的。
  • uselesswater 06-28 20:00
    6
    要是干个满血的下来,那得 200 多万吧!
  • KumaAPI 06-28 20:03
    7
    事实证明不是工作刚需的情况没什么必要本地部署模型使用 就算是租服务器开销也不小
  • 2658601135zzh 06-28 20:09
    8
    自部署太费钱费时间了,有那钱都可以正价充值 api 爽蹬了
  • YaakovZiv 06-28 20:18
    9
    以前还能白嫖云主机平台的 GPU 服务器,现在 GPU 服务器热销,已经基本没法白嫖,必须是先有商务合同,才能白嫖一段时间。我现在直接自己卖临时的 GPU 云主机做部署测试。
  • damontian 06-28 20:18
    10
    现在这个阶段,自己部署是真不划算
  • root71370 06-28 20:36
    11
    所以是不是证明官方部署的 api 也是亏本的
  • bwnjnOEI 06-28 20:49
    12
    没试试 sglang 吗?话说你要想部署生产级响应的需要把所有参数都要搞明白,玩弄多卡高并发的 vllm/sglang 难度不亚于 k8s
  • slowgen 06-28 21:42
    13
    本地跑大模型还得是 Blackwell 架构的 RTX Pro 6000 ,直接上 NVFP4 量化,真的就一代架构一代神
  • pikay 06-28 21:54
    14
    话说上午的 GLM Plan 有人抢得到吗?
  • beginor 楼主 06-28 22:10
    15
    @uselesswater 按现在的价格趋势,200 万估计不够了
  • beginor 楼主 06-28 22:11
    16
    @slowgen RTX 6000 Pro 刚出来时 6 万,现在翻倍都不止了
  • beginor 楼主 06-28 22:13
    17
    @bwnjnOEI sgl 更复杂,虽然有官方的指南,时间有限,只测试了 llama.cpp 和 vllm ,这两个都好熟悉
  • yatseni 06-28 22:35
    18
    起步上最新模型,可不是投入大吗
  • raycool 06-28 22:37
    19
    现在 H200 贵的离谱
  • emric 06-28 22:53
    20
    我们公司在 HK H200 部署了 GLM5 升级 GLM5.2 也有点卡。
  • coefu 06-28 23:33
    21
    牛逼,有钱
  • garyalen 06-29 01:26
    22
    910C 还需要双机 32 卡呢 配套得去到 600w
  • MaiGe 06-29 02:13
    23
    我女朋友公司本地部署了 GLM5.2 不知道是不是满血
  • felixcode 06-29 02:41
    24
    都是买了大内存 mac 后发现没啥用处
    于是发帖安慰自己,本地大模型虽然没用,但能保护隐私。
  • germain 06-29 04:08
    25
    目前用的 Ollama 的 plan ,GLM5.2 也有,效果不错
  • shakaraka 06-29 05:11
    26
    我先不吐槽其他的,我想问一下,你出于本地部署的需求是什么?
  • yuedashi 06-29 08:22
    27
    @shakaraka 很多单位没法连外网。我就是。。就是内网部署着用
  • yifangtongxing28 06-29 08:40
    28
    @felixcode 32g 以上到 64 还是比较刚需的 64 以上家用不太合适
  • sparkssssssss 06-29 08:42
    29
    @Hconk #4 能部署和能正常用还是有区别的吧,我们单位去年 ds3 出圈的时候就买了一台 mac studio 256G 的,5w 多,结果跑 ds 70b 速度都很很勉强,
  • damichifan 06-29 08:44
    30
    @shakaraka 写代码可能无所谓,但有些技术文件,其实不算高精尖,但不适合对外公开。工程类的很多,也有一些确实是新工艺之类的,不能公开
  • Mandelo 06-29 08:55
    31
    @shakaraka 涉密项目就要求
  • sn0wdr1am 06-29 09:01
    32
    其实很简单:

    你要内网部署大模型,本地部署大模型,你就砸钱,砸很多很多钱去部署。

    那不是一般的多。

    小打小闹还是算了。
  • neoblackcap 06-29 09:15
    33
    LLM 推理引擎各家都有魔改的,不是直接拿 vllm 搞的。赚钱的点就在于缓存命中,缓存命中率约高,就越赚钱
  • nasmatic 06-29 09:23
    34
    H20 和 H200 显存一样的吧,20 开不了 1m 上下文 200 估计也不行
  • shakaraka 06-29 09:41
    35
    @yuedashi #27
    @damichifan #30
    @Mandelo #31

    这种场景我理解。那么既然这样公司就应该不计成本给你们部署才对。要么就是和阿里、华为签订合作等途径。

    让你们考察如何自行部署,完全不现实。

    如果如果都不行,那么你们就肯定只能古法编程了撒。本来完全体智商都不在线,更别说量化版了
  • duanxianze 06-29 09:42
    36
    AI 写代码目前比人力还贵啊
  • Chihaya0824 06-29 12:01
    37
    gguf 是这样的,有几点 op 可以试一下,算是在小显存里挣扎的一些经验
    1.用 fp8 的 kv cache
    2.尝试用 speculative decoding ,就是说你把 MTP 给打开,应该能够让 tps 变高挺多的,后续如果有 dflash 还可能可以提高更多
    3.接受质量损失去用 awq 版,但是肯定不会比 fp8 好
    都可以试一下,8 个 h20 肯定可以跑的,而且 kvcache 还可以做 tiering ,可以用内存 swap ,变相支持更多用户(一定程度上)
  • beginor 楼主 06-29 12:16
    38
    @nasmatic H200 的算力是 H20 的十几倍,效果肯定比 H20 好很多
  • beginor 楼主 06-29 12:18
    39
    @Chihaya0824 我也是一直在小显存里面折腾,Mac ,魔改 4090 ,5090 都测试过不少,这次只是有机会用一下 H20 而已
  • beginor 楼主 06-29 12:19
    40
    @shakaraka 私有部署应对的是涉密项目,不能联网的单位的需求
  • jimrok 06-29 12:43
    41
    只能找云厂上,托管到云端,涉密的只能这样了。后续模型更大,私有部署只能是云托管模式。
  • diudiuu 06-29 13:34
    42
    已经超过这个网站 99%的人了,真有钱
* 帖子来源V2EX
返回