返回列表 发布新帖
查看: 43|回复: 1

Gemma4 12b 居然比 Qwen3.5 9b 还快,意料不到

1758580096aa发表于 7 天前 来自手机版 | 查看全部 |阅读模式
显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑?

llama-server.exe ^
      --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^
      --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^
      --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^
      --spec-type draft-mtp --spec-draft-n-max 3  ^
      --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^
      --n-gpu-layers-draft 999 ^
      --cache-type-k q4_0 ^
      --cache-type-v q4_0 ^
      --n-gpu-layers 999 ^
      --no-mmap ^
      --cache-prompt ^
      --mlock ^
      --kv-unified ^
      --parallel 1 ^
      -fa on ^
      --fit off ^
      --ctx-size 100000 --n-predict 10000 ^
      --host 0.0.0.0 --port 11432
回复

使用道具 举报

小鹿酱发表于 6 天前 来自手机版 | 查看全部
因为 gemma4 12B 有 48 层,qwen3.5 9B 只有 32 层。层深度决定了逻辑的缜密性。
回复

使用道具 举报

懒得打字嘛,点击右侧快捷回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表