求助：适合DGX-SPARK（共享内存128G）服务器的开源大模型

Wyatt_Happy 2026-07-02 18:07 1

硬件环境是酱的

设备： NVIDIA DGX Spark (GB10)

架构： ARM64 + Blackwell GPU

内存： 128GB 统一内存（CPU/GPU 共享）

系统： Ubuntu 24.04 LTS

CUDA： 13.0 | 驱动 580（自己下的）

需求

开源模型，支持商用（倒是也可以不支持就是小团队开发用）

能 vLLM 启动——需要并行多用户推理（3-5 人同时用）

模型大小 + KV Cache 总量 ≤120GB（留 8GB 给系统）

我是用finalshell部署的

效果不差于 DeepSeek V4 Flash （残血版）级别

下面展示一下已尝试的方案（血泪史）

方案	结果
DeepSeek V4 Flash NVFP4 (168GB)	^-^ 128GB 放不下，OOM
DS4 (antirez) Q2 GGUF (80GB)	^-^ 能跑，13 t/s，但单实例不支持 vLLM 并行
DeepSeek R1 70B Ollama	^-^ 能跑但慢，同样不支持 vLLM

求推荐

有没有 70B-100B 参数、支持 vLLM AWQ/GPTQ 量化的开源模型？

或者 DGX 上有什么特殊优化方案（比如 TensorRT-LLM、SGLang 适配）？

万分感谢各位佬友指点我都尝试一下，谢谢！

最新回复 (7)

HeriX 07-02 18:10

1楼

100多B的模型都可以尝试下吧

Qwen3.5-122B-A10B 可以看看
Fun师傅 07-02 18:42

2楼

综合考虑输出效率，Qwen3.5-30B/27B的也能应付日常工作了（个人使用）。我觉得作为商用来说输出速度太慢了。
yricky 07-02 19:17

3楼
1. 效果不差于 DeepSeek V4 Flash （残血版）级别
符合这条的应该没有了，DS4那个项目差不多是gb10的极限了
gl6 07-02 19:28

4楼

比flash不能差？那基本上不可能，就128gb显存，这个显存下最好的模型就是qwen3.5 122b或qwen 3.6 27b
nanguatou 07-02 19:34

5楼

英伟达有个网站 jetson ai lab 上面有很多大模型部署和简单性能测试结果，虽然不是dgx spark 的但是有配置的接近的 Thor 128gb 的，有一定参考价值
飞行荷兰人 07-02 19:41

6楼

大小小于 DeepSeek V4 Flash 还要效果不差于 v4 flash… 在现在这个时间点这不太现实吧，v4 flash 毕竟这么新，目前应该还是这个成本下的 SOTA…

之前刷到 Redis 之父做过一个可以在极限内存下推理 deepseek v4 flash 和 pro 的项目，你可以看看，挺猛的()

github.com

GitHub - antirez/ds4: DeepSeek 4 Flash and PRO local inference engine...

DeepSeek 4 Flash and PRO local inference engine for Metal, CUDA and ROCm
飞行荷兰人 07-02 19:42

7楼

由于各种原因，现在新的模型好像不太玩 70B 左右的规模了，基本都是小于 30-40B 或是 120B+，或是 MoE 总参数巨大的模型，128GB 统一内存不好推啊(

* 帖子来源Linux.do

附近帖子

↑codex reset后5小时限制不能解除吗！无语了！
↑各位佬，有没有GUI比较好用的Linux
↑张雪峰股份由11岁女儿接手
↑Mac mini M4 发烫严重
↑佬，站起来蹬！！商汤Token Plan的免费计划延长到7月底了，支持DeepSeek V4、GLM 5.2
📍 求助：适合DGX-SPARK（共享内存128G）服务器的开源大模型
↓【九幺】为什么叫九幺？
↓美做市商Susquehanna，起诉利用内幕信息做空老虎、富途获利1亿美元的100余人
↓gpt-5.6 sol还有除了max竟然还有ultra，这模型名字数量会不会有点太多了。
↓augment code现在还好用吗
↓不挂梯子，不连外网，能不能Codex ?

飞读

Wyatt_Happy

主题数
1

帖子数
1

注册排名
3

随机推荐