消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架? rocm 还是原生 linux 效率高,我是 7900xtx nv 的 3080m 这种魔改台式 16G ,16xx ,用了一年多还不错,就是寨都寨厂出品,驱动 nvcleanstall 就行 最近 sycl 生态也好起来了,估计 arc pro b70 要涨价了 这个东西.个人玩的话感觉不到爽.除非大力出奇迹.
我自己本地 3060 8G 搞了个 qwen2.7 玩了下.速度有 27T/S,.但是显存低.上下文长度也很低.输出速度倒是可以接受.基本不能用.这个东西没个 24G 以上基本就是纯折腾. 是的,消费级推荐 lm studio RX9070 对标 Nvidia Titan V 的 AI 推理性能
页:
[1]