大佬们本地双卡3080都是如何部署大模型的?

UzkiS 2026-07-05 13:27 1

双卡3080 20G,打算用docker部署AWQ的Qwen27b或者35b,都是让opencode来配,遇到点问题


一开始打算用vllm,但是无论27b还是35b,openclaw多轮对话后都会从50t/s 100t/s掉到2-3t/s


然后打算用sglang,结果是我无论用什么AWQ模型都拉不起来,我很郁闷


llama.cpp好像能跑吧 openclaw虽然也会掉速 但是多轮对话至少是能稳定在10-20t/s,但是考虑到并发和gguf我不是很想选他 gguf好像容易任务跑一半就不跑了


大伙们有实操案例吗 我折腾好几天了 ^-^

最新回复 (3)
  • kyle 07-05 13:31
    1

    Ollama呢?我3090 24g的,27b好像还挺快的,没统计过每秒的

  • UzkiS 楼主 07-05 13:35
    2

    ollama没试过 但是应该和llamacpp表现一样吧 不过感觉gguf还有个毛病 很容易任务跑一半就中断了

  • Brady 07-05 14:04
    3

    我一直用llama.cpp 挺稳定的, 而且你是自己用不会太多并发吧

* 帖子来源Linux.do
返回