cc卡布达 发表于 2026-5-31 10:48:04

消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都

如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。

transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?

ylw90731 发表于 2026-5-31 13:00:05

rocm 还是原生 linux 效率高,我是 7900xtx

Timo 发表于 2026-5-31 13:24:44

nv 的 3080m 这种魔改台式 16G ,16xx ,用了一年多还不错,就是寨都寨厂出品,驱动 nvcleanstall 就行

smw1925281793 发表于 2026-5-31 14:00:05

最近 sycl 生态也好起来了,估计 arc pro b70 要涨价了

咕咕鸡 发表于 2026-5-31 19:00:05

这个东西.个人玩的话感觉不到爽.除非大力出奇迹.
我自己本地 3060 8G 搞了个 qwen2.7 玩了下.速度有 27T/S,.但是显存低.上下文长度也很低.输出速度倒是可以接受.基本不能用.这个东西没个 24G 以上基本就是纯折腾.

dalongmao 发表于 2026-5-31 23:05:05

是的,消费级推荐 lm studio

快乐小牛 发表于 2026-6-1 04:10:05

RX9070 对标 Nvidia Titan V 的 AI 推理性能
页: [1]
查看完整版本: 消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都