Qwen3.5-Sonnet-9B: 专为 Coding Agent 蒸馏的 9B 小模型

酒话 · 发表于 2026-5-16 15:57:03

最近炼了一个小模型放出来给大家玩，专门针对 OpenCode （还有 Claude Code ）做了蒸馏。

FP8 量化后权重大概 13GB ，单张 24GB 显卡用 vLLM 就能跑 200K 上下文。

核心目标：claude 的风格，降低 tool call 的失败率，让 agent 能跑更长的连续任务。

蹲一下：Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏

🤗 HF: Qwen3.5-Sonnet-9B

abcde · 发表于 2026-5-16 15:57:05

22G 可以用吗？

Aven · 发表于 2026-5-16 16:17:03

好奇有做效果测试和对比吗另外有考虑提供更近一步的量化和苹果环境的权重嘛

2367225475 · 发表于 2026-5-16 16:55:05

@zhang666 试了下，19.5GB 显存可以跑 100K 的 context 长度

帆帆 · 发表于 2026-5-16 17:22:09

@kuhung 还在跑，ifeval （指令跟随）和 gpqa_diamond （通用知识）没有弱化。我提供的权重是 hugging face 的标准 fp8 ，不是很熟悉苹果权重，可能会做～

甜梗贩卖机 · 发表于 2026-5-16 17:55:05

好奇，这种和 gemma4 26b a3b 的 iq4xs 量化这种对比哪个好，尺寸可以说一样大。

Eiro · 发表于 2026-5-17 12:25:05

@tootfsg 跑分的话确实 30Bx4bit 高于 15Bx8bit 。但是实际体验其实不好，高峰期感觉到的那种模型降智，基本就是低精度量化版本的锅