必须对 AI 进行严肃的绩效考核

Eren · 发表于 2026-6-3 20:54:04

我最近发现 Copilot 涨价了，自己算了一下，感觉差不多涨了 10 倍。而且也有不少人说，不能光用 Token 量来衡量一个工程师的能力，更应该看实际产出了什么成果。

其实 AI 也是一样的道理。你说它效率高吧，那确实高，但遇到不同问题的时候表现差距特别大——有时候三下五除二就给解决了，有时候却磨磨唧唧的，白白浪费好多 Token 。

所以我就在想，是不是可以把我们对程序员的绩效考核方式，也拿来套在 AI 身上？（没错，我真是这么想的。）用这种方法来评估 AI 的真实能力，而不是光靠程序员的直觉来感觉它好不好用。

具体来说，可以用现有的绩效指标，比如一个功能预计要花多少“人小时”来完成（ AI 可能不太适合用“人天”来算），再看看实际消耗了多少“人小时”。某个功能预计要消耗多少 TOEKN （或者直接就是 dollar ）,实际消耗了多少。甚至这些绩效评价也可以直接让 AI 看到，这些在 Agent 上其实是可以做相关设置的。

t294016716 · 发表于 2026-6-3 21:50:05

然后他就给单元测试直接糊了个 return

qq670334510 · 发表于 2026-6-4 02:05:13

用 Token 量来定 KPI 比用代码量来定更蠢。