大佬们本地双卡3080都是如何部署大模型的？

UzkiS 2026-07-05 13:27 1

双卡3080 20G，打算用docker部署AWQ的Qwen27b或者35b,都是让opencode来配,遇到点问题

一开始打算用vllm，但是无论27b还是35b，openclaw多轮对话后都会从50t/s 100t/s掉到2-3t/s

然后打算用sglang,结果是我无论用什么AWQ模型都拉不起来，我很郁闷

llama.cpp好像能跑吧 openclaw虽然也会掉速但是多轮对话至少是能稳定在10-20t/s,但是考虑到并发和gguf我不是很想选他 gguf好像容易任务跑一半就不跑了

大伙们有实操案例吗我折腾好几天了 ^-^

最新回复 (3)

kyle 07-05 13:31

1楼

Ollama呢？我3090 24g的，27b好像还挺快的，没统计过每秒的
UzkiS 楼主 07-05 13:35

2楼

ollama没试过但是应该和llamacpp表现一样吧不过感觉gguf还有个毛病很容易任务跑一半就中断了
Brady 07-05 14:04

3楼

我一直用llama.cpp 挺稳定的, 而且你是自己用不会太多并发吧

* 帖子来源Linux.do

附近帖子

↑智谱现在都不放库存了吗
↑诚问佬友们，想办一张visa卡需要什么途径呀
↑佬们，哪里能买到靠谱的GCP？
↑使用公益站的GPT时时不时就报这个错误，是为什么？Stream disconnected before completion: Transport error: network error: error decoding response body
↑送几个K12的账号，各位大佬玩吧
📍 大佬们本地双卡3080都是如何部署大模型的？
↓世界杯法国 1 ：0 巴拉圭
↓Claude如果用官方的api会封吗
↓引申自某佬的智械危机的讨论
↓Hlool公益站加入狂欢
↓有没有还停留在IOS17的苹果用户，求问要不要升级IOS18…

返回

飞读

UzkiS

主题数
1

帖子数
1

注册排名
3

随机推荐