CMU创建一个开源的AI代码生成模型，C语言表现优于Codex( 三 ) _GitHub

文章图片

实验结果
外在评估
整体结果如下表 4 所示。在现有模型中， PolyCoder 弱于类似规模的 GPT-Neo 和规模更小的 Codex 300M 。总的来说，该模型不如 Codex 和 GPT-Neo/J ，但强于 CodeParrot 。

文章图片

缩放影响。为了进一步了解模型参数量对 HumanEval 代码完成性能的影响，研究者在下图 4 中展示了 Pass@1、Pass@10 和 Pass@100 的性能变化。

文章图片

温度影响。上述所有结果都是通过采样不同温度的语言模型并为每个指标选择最佳值获得的。研究者同样感兴趣的是不同的温度如何影响最终生成质量，结果如下图 5 所示。

文章图片

内在评估
不同模型在评估数据集上的困惑度结果如下图 6 所示。困惑度得分最高为 4 。可以看到， PolyCoder 在 C 语言中优于 Codex 和其他所有模型。并且，仅与开源模型相比， PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 中的表现优于类似规模的 GPT-Neo 2.7B 。
此外，除 C 语言之外的其他 11 种语言，包括 PolyCoder 在内的所有开源模型的表现都弱于 Codex 。

文章图片

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。