返回列表 发布新帖
查看: 169|回复: 6

Qwen3.5-Sonnet-9B: 专为 Coding Agent 蒸馏的 9B 小模型

酒话发表于 2026-5-16 15:57:03 来自手机版 | 查看全部 |阅读模式
最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。

FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。

核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。

蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏

🤗 HF: Qwen3.5-Sonnet-9B
回复

使用道具 举报

abcde发表于 2026-5-16 15:57:05 来自手机版 | 查看全部
22G 可以用吗?
回复

使用道具 举报

Aven发表于 2026-5-16 16:17:03 来自手机版 | 查看全部
好奇有做效果测试和对比吗 另外有考虑提供更近一步的量化和苹果环境的权重嘛
回复

使用道具 举报

2367225475发表于 2026-5-16 16:55:05 来自手机版 | 查看全部
@zhang666 试了下,19.5GB 显存可以跑 100K 的 context 长度
回复

使用道具 举报

帆帆发表于 2026-5-16 17:22:09 来自手机版 | 查看全部
@kuhung 还在跑,ifeval (指令跟随) 和 gpqa_diamond (通用知识)没有弱化。我提供的权重是 hugging face 的标准 fp8 ,不是很熟悉苹果权重,可能会做~
回复

使用道具 举报

甜梗贩卖机发表于 2026-5-16 17:55:05 来自手机版 | 查看全部
好奇,这种和 gemma4 26b a3b 的 iq4xs 量化这种对比哪个好,尺寸可以说一样大。
回复

使用道具 举报

Eiro发表于 2026-5-17 12:25:05 来自手机版 | 查看全部
@tootfsg 跑分的话确实 30Bx4bit 高于 15Bx8bit 。但是实际体验其实不好,高峰期感觉到的那种模型降智,基本就是低精度量化版本的锅
回复

使用道具 举报

懒得打字嘛,点击右侧快捷回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表