AI编程挑战赛首轮结果出炉:最高得分仅7.5%

K Prize是由Databricks和Perplexity联合创始人推出的AI编程挑战赛,首轮比赛结果显示,获胜者巴西工程师Eduardo Rocha de Andrade仅答对7.5%的题目就获得5万美元奖金。该测试基于GitHub真实问题,采用定时提交系统防止针对性训练,与SWE-Bench 75%的最高得分形成鲜明对比。创始人承诺向首个在该测试中得分超过90%的开源模型提供100万美元奖励。

一项新的AI编程挑战赛公布了首轮获胜者,同时为AI驱动的软件工程师设立了新的评估标准。

周三太平洋时间下午5点,非营利组织Laude Institute宣布了K Prize的首位获胜者。K Prize是一项多轮AI编程挑战赛,由Databricks和Perplexity联合创始人Andy Konwinski发起。获胜者是一位名为Eduardo Rocha de Andrade的巴西提示工程师,他将获得5万美元奖金。但比获胜更令人惊讶的是他的最终得分:他仅以7.5%的正确率赢得了比赛。

"我们很高兴构建了一个真正困难的基准测试,"Konwinski说道。"如果基准测试要有意义,就应该具有挑战性,"他继续补充:"如果大型实验室用他们最强大的模型参赛,得分会有所不同。但这正是重点所在。K Prize在有限计算资源的离线环境中运行,因此更适合较小的开源模型。我很喜欢这一点,它创造了公平的竞争环境。"

Konwinski承诺向第一个在测试中得分超过90%的开源模型提供100万美元奖励。

与知名的SWE-Bench系统类似,K Prize通过测试模型处理GitHub标记问题的能力来评估其解决现实编程问题的水平。但与基于固定问题集的SWE-Bench不同,K Prize被设计为"无污染版本的SWE-Bench",采用定时提交系统来防止针对基准的特定训练。在第一轮中,模型需要在3月12日前提交。K Prize组织者随后仅使用该日期之后标记的GitHub问题构建测试。

7.5%的最高得分与SWE-Bench本身形成鲜明对比,后者目前在较简单的"验证"测试中显示75%的最高得分,在较困难的"完整"测试中为34%。Konwinski仍不确定这种差异是由于SWE-Bench的污染问题还是从GitHub收集新问题的挑战性,但他预期K Prize项目很快会给出答案。

"随着我们进行更多轮次的测试,我们会有更好的认识,"他告诉TechCrunch,"因为我们预期人们会适应每几个月在这方面竞争的动态变化。"

考虑到目前已有的大量AI编程工具,这似乎是一个奇怪的短板所在——但随着基准测试变得过于简单,许多批评者认为像K Prize这样的项目是解决AI日益严重的评估问题的必要步骤。

"我非常看好为现有基准构建新测试,"普林斯顿大学研究员Sayash Kapoor说,他在最近的一篇论文中提出了类似想法。"没有这样的实验,我们实际上无法判断问题是污染,还是仅仅是在人工参与下针对SWE-Bench排行榜进行优化。"

对于Konwinski来说,这不仅仅是一个更好的基准测试,更是对整个行业的公开挑战。"如果你听信那些炒作,就好像我们应该看到AI医生、AI律师和AI软件工程师,但事实并非如此,"他说。"如果我们在无污染的SWE-Bench上甚至无法获得超过10%的得分,这对我来说就是现实检验。"

来源:Techcrunch

0赞

好文章,需要你的鼓励

2025

07/24

12:59

分享

点赞

邮件订阅