不如 4.6 + 1 简单任务用 pi + deepseek 之后, 对比之下 claude code 太太太慢了 再补充个我遇到几次的 bug:模型有时会输出一大堆 tool calls ,但是不输出 finish 。于是从 API 角度来说,响应一直在进行,不给客户端返回结果的机会,模型就拿不到执行命令的结果。
而 Opus 4.8 会出现幻觉,认为自己拿到了空白输出,于是就能看到这种奇观:
================
(前略)
$ grep -R xxx ./
thinking: 奇怪,grep 没有返回任何结果,让我测试 Bash 工具是否正常。
$ ls -l .
$ echo ok
$ echo ====probing====
$ printf "yes\n"
$ echo PROBING_OK
thinking: 依然没有任何输出,Bash 工具可能存在问题。我需要向用户解释当前的工具状况。 我的体验是 4.7 不如 4.6 ,4.7 很恶心的点是输出中文时(文档、注释等地方)经常出现一些很不常用,很奇怪的词汇表达(「当前」->「目下」、「继续」->「续行」、「重新生成」->「再演」等)。以及某些词汇会出现像火星文一样,看字形能看出意思但是文字被替换的情况。我用的是 cursor 内的模型,模型肯定是正确的,感觉像是官方为了反蒸馏做了什么处理...
4.8 用下来基本没出现 4.7 的这种情况,但是整体的体验下来和 4.6 、4.7 没有明显的大提升。 还在用 4.6 大模型瓶颈时代来了
页:
1
[2]