不同难度的编程语言对于 llm 来说,是不是无所吊谓
对于两个训练语料都充足的编程语言,对于人类来说,一个编程语言的心智负担小,一个编程语言的心智负担大。
那么对于 llm 来说,在 token 计算上,会有复杂度的不同吗 让 AI 写 perl 或 raku bug 率估计更高 训练方式模仿人的神经网络,不同复杂度的语言消耗的 token 可能不同 理论上是相同的, Transformer 架构的老本行就是机器翻译 我认为有,更大众的语言,更容易命中训练语料。
举个极端的例子,比如要求 LLM 不用任何库,手搓一个堆排序。一个用现代的 go/python ,另一个用上古时期的 COBOL 。
我猜测后者几乎没有什么训练的资料,会需要更多的 token 才能写出来,甚至还需要反复试错。 训练语料都充足的前提下,生态的丰富度应该会有影响,需要 LLM 自己实现的部分越多,出错的概率就越大 显然 LLM 写 Rust 比写 C++容易得多,前者能在编译阶段把很多错误和幻觉都制止了,而写 C++直接就写错,尤其是 C++里面的未定义行为经常测试不出来。 如非必须,就选 rust 和 java 之类的大众语言,定义严格的语言,llm 选这些能减少出错的概率,获得这些语言的一些好处。 感觉 rust 非常适合 ai coding ,编译期就能暴露一些问题 冷知识,llm 算 1+1 和算极端复杂的问题时吐出 1 个 token 的算力消耗一致
页:
[1]
2