LLM代码准确率平均降低15%

GPT-4、ChatGPT、CODEGEN、VICUNA、SANTACODER、INCODER、GPT-J、GPT-NEO、PolyCoder、StableLM-α 。
【LLM代码准确率平均降低15%】从表格中来看,经过严格测试后,这群AI的生成准确率都有所下落:

LLM代码准确率平均降低15%

文章插图
这里会通过一种名叫pass@k的方法评估准确率,其中k是允许大模型给问题生成的程序数量,n是用于测试的输入数量,c是正确的输入数量:
根据新的这套评估标准,大模型们的准确率平均下落了15%,其中比较广泛研究的CODEGEN-16B更是下落了超过18% 。
至于ChatGPT和GPT-4生成代码的性能,也下落了最少13% 。
不过 , 也有网友表示,大模型生成的代码效果没那么好,已经是“尽人皆知的事实”了,需要研究的是“为何大模型写的代码不能用” 。
关于本次LLM代码准确率平均降低15%的问题分享到这里就结束了 , 如果解决了您的问题 , 我们非常高兴 。