返回列表 发布新帖
查看: 121|回复: 6

消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都

cc卡布达发表于 3 天前 来自手机版 | 查看全部 |阅读模式
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。

transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
回复

使用道具 举报

ylw90731发表于 3 天前 来自手机版 | 查看全部
rocm 还是原生 linux 效率高,我是 7900xtx
回复

使用道具 举报

Timo发表于 3 天前 来自手机版 | 查看全部
nv 的 3080m 这种魔改台式 16G ,16xx ,用了一年多还不错,就是寨都寨厂出品,驱动 nvcleanstall 就行
回复

使用道具 举报

smw1925281793发表于 3 天前 来自手机版 | 查看全部
最近 sycl 生态也好起来了,估计 arc pro b70 要涨价了
回复

使用道具 举报

咕咕鸡发表于 3 天前 来自手机版 | 查看全部
这个东西.个人玩的话感觉不到爽.除非大力出奇迹.
我自己本地 3060 8G 搞了个 qwen2.7 玩了下.速度有 27T/S,.但是显存低.上下文长度也很低.输出速度倒是可以接受.基本不能用.这个东西没个 24G 以上基本就是纯折腾.
回复

使用道具 举报

dalongmao发表于 3 天前 来自手机版 | 查看全部
是的,消费级推荐 lm studio
回复

使用道具 举报

快乐小牛发表于 前天 04:10 来自手机版 | 查看全部
RX9070 对标 Nvidia Titan V 的 AI 推理性能
回复

使用道具 举报

懒得打字嘛,点击右侧快捷回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表