求助:适合DGX-SPARK(共享内存128G)服务器的开源大模型

Wyatt_Happy 2026-07-02 18:07 1

硬件环境是酱的



  • 设备: NVIDIA DGX Spark (GB10)

  • 架构: ARM64 + Blackwell GPU

  • 内存: 128GB 统一内存(CPU/GPU 共享)

  • 系统: Ubuntu 24.04 LTS

  • CUDA: 13.0 | 驱动 580(自己下的)


需求



  1. 开源模型,支持商用(倒是也可以不支持就是小团队开发用)

  2. 能 vLLM 启动——需要并行多用户推理(3-5 人同时用)

  3. 模型大小 + KV Cache 总量 ≤120GB(留 8GB 给系统)

  4. 我是用finalshell部署的

  5. 效果不差于 DeepSeek V4 Flash (残血版)级别


下面展示一下已尝试的方案(血泪史)
























方案 结果
DeepSeek V4 Flash NVFP4 (168GB) ^-^ 128GB 放不下,OOM
DS4 (antirez) Q2 GGUF (80GB) ^-^ 能跑,13 t/s,但单实例不支持 vLLM 并行
DeepSeek R1 70B Ollama ^-^ 能跑但慢,同样不支持 vLLM

求推荐



  • 有没有 70B-100B 参数、支持 vLLM AWQ/GPTQ 量化的开源模型?

  • 或者 DGX 上有什么特殊优化方案(比如 TensorRT-LLM、SGLang 适配)?


万分感谢各位佬友指点 我都尝试一下,谢谢!

最新回复 (7)
  • HeriX 07-02 18:10
    1

    100多B的模型都可以尝试下吧

    Qwen3.5-122B-A10B 可以看看

  • Fun师傅 07-02 18:42
    2

    综合考虑输出效率,Qwen3.5-30B/27B的也能应付日常工作了(个人使用)。我觉得作为商用来说输出速度太慢了。

  • yricky 07-02 19:17
    3


    1. 效果不差于 DeepSeek V4 Flash (残血版)级别



    符合这条的应该没有了,DS4那个项目差不多是gb10的极限了

  • gl6 07-02 19:28
    4

    比flash不能差?那基本上不可能,就128gb显存,这个显存下最好的模型就是qwen3.5 122b或qwen 3.6 27b

  • nanguatou 07-02 19:34
    5

    英伟达有个网站 jetson ai lab 上面有很多大模型部署和简单性能测试结果 ,虽然不是dgx spark 的但是有配置的接近的 Thor 128gb 的,有一定参考价值

  • 飞行荷兰人 07-02 19:41
    6

    大小小于 DeepSeek V4 Flash 还要效果不差于 v4 flash… 在现在这个时间点这不太现实吧,v4 flash 毕竟这么新,目前应该还是这个成本下的 SOTA…


    之前刷到 Redis 之父做过一个可以在极限内存下推理 deepseek v4 flash 和 pro 的项目,你可以看看,挺猛的()

  • 飞行荷兰人 07-02 19:42
    7

    由于各种原因,现在新的模型好像不太玩 70B 左右的规模了,基本都是小于 30-40B 或是 120B+,或是 MoE 总参数巨大的模型,128GB 统一内存不好推啊(

* 帖子来源Linux.do
返回