返回列表 发布新帖
查看: 147|回复: 7

mac 64g 能部署哪个本地大模型

lzp123发表于 2026-6-3 10:33:04 来自手机版 | 查看全部 |阅读模式
最近想在本地部属个 qwenpaw 用用。设备是 mac m4 64g 。想知道这个能部署哪个本地大模型 不太懂 纯请教
回复

使用道具 举报

快乐小牛发表于 2026-6-3 11:25:06 来自手机版 | 查看全部
whichllm 我测了下不太准,top1 并非最佳选择。它提到的模型权重,你得细看不同量化,还要考虑 kv cache 预留一些空间。
回复

使用道具 举报

栀酒少女发表于 2026-6-3 11:43:05 来自手机版 | 查看全部
你是 mac ,直接下个 oMLX ,下模型的时候会建议你用哪个。而且基本限制了 MLX 模型格式,对于 mac 更友好。
回复

使用道具 举报

qwe1831848900发表于 2026-6-3 12:00:32 来自手机版 | 查看全部
我正好写过类似工具

如果是稠密模型
运行时显存需求 = 模型参数 x dtype(是什么量化版本) + 冗余量 留给 kv cache

如果是 moe 的模型
实际运行时显存需求 少于上面

用 13b 模型为例
格式              每参数字节    13B 权重
FP16/BF16         2B           ~26 GB
FP8 (E4M3)        1B           ~13 GB
NVFP4              0.5B        ~7 GB

kv cache 按照 1/4 冗余计算

26 * 5/4
13 * 5/4
7 * 5/4
回复

使用道具 举报

独行发表于 2026-6-3 12:24:04 来自手机版 | 查看全部
一般 小设备都跑 nvfp4 或者 fp8

mac fp8 的话 你大概跑 36 - 40+ 左右的差不多了 但可能你做其他功能就卡了
回复

使用道具 举报

2782186427发表于 2026-6-3 13:30:06 来自手机版 | 查看全部
目前比较好的应该是 qwen3.6-35b-a3b 或 qwen3.6-27b
回复

使用道具 举报

Zuri发表于 2026-6-3 18:35:08 | 查看全部
是 max pro 还是 ultra ?不一样的。
回复

使用道具 举报

xiaobin发表于 2026-6-3 19:35:09 来自手机版 | 查看全部
不建议个人电脑跑参数小的大语言模型,能跑但没什么卵用。1. 太慢了; 2. 太弱智了。
不如花点钱调用顶级模型的 API 。
回复

使用道具 举报

懒得打字嘛,点击右侧快捷回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表