AI编程挑战赛首轮结果出炉：最高得分仅7.5%

K Prize是由Databricks和Perplexity联合创始人推出的AI编程挑战赛，首轮比赛结果显示，获胜者巴西工程师Eduardo Rocha de Andrade仅答对7.5%的题目就获得5万美元奖金。该测试基于GitHub真实问题，采用定时提交系统防止针对性训练，与SWE-Bench 75%的最高得分形成鲜明对比。创始人承诺向首个在该测试中得分超过90%的开源模型提供100万美元奖励。

一项新的AI编程挑战赛公布了首轮获胜者，同时为AI驱动的软件工程师设立了新的评估标准。

周三太平洋时间下午5点，非营利组织Laude Institute宣布了K Prize的首位获胜者。K Prize是一项多轮AI编程挑战赛，由Databricks和Perplexity联合创始人Andy Konwinski发起。获胜者是一位名为Eduardo Rocha de Andrade的巴西提示工程师，他将获得5万美元奖金。但比获胜更令人惊讶的是他的最终得分：他仅以7.5%的正确率赢得了比赛。

"我们很高兴构建了一个真正困难的基准测试，"Konwinski说道。"如果基准测试要有意义，就应该具有挑战性，"他继续补充："如果大型实验室用他们最强大的模型参赛，得分会有所不同。但这正是重点所在。K Prize在有限计算资源的离线环境中运行，因此更适合较小的开源模型。我很喜欢这一点，它创造了公平的竞争环境。"

Konwinski承诺向第一个在测试中得分超过90%的开源模型提供100万美元奖励。

与知名的SWE-Bench系统类似，K Prize通过测试模型处理GitHub标记问题的能力来评估其解决现实编程问题的水平。但与基于固定问题集的SWE-Bench不同，K Prize被设计为"无污染版本的SWE-Bench"，采用定时提交系统来防止针对基准的特定训练。在第一轮中，模型需要在3月12日前提交。K Prize组织者随后仅使用该日期之后标记的GitHub问题构建测试。

7.5%的最高得分与SWE-Bench本身形成鲜明对比，后者目前在较简单的"验证"测试中显示75%的最高得分，在较困难的"完整"测试中为34%。Konwinski仍不确定这种差异是由于SWE-Bench的污染问题还是从GitHub收集新问题的挑战性，但他预期K Prize项目很快会给出答案。

"随着我们进行更多轮次的测试，我们会有更好的认识，"他告诉TechCrunch，"因为我们预期人们会适应每几个月在这方面竞争的动态变化。"

考虑到目前已有的大量AI编程工具，这似乎是一个奇怪的短板所在——但随着基准测试变得过于简单，许多批评者认为像K Prize这样的项目是解决AI日益严重的评估问题的必要步骤。

"我非常看好为现有基准构建新测试，"普林斯顿大学研究员Sayash Kapoor说，他在最近的一篇论文中提出了类似想法。"没有这样的实验，我们实际上无法判断问题是污染，还是仅仅是在人工参与下针对SWE-Bench排行榜进行优化。"

对于Konwinski来说，这不仅仅是一个更好的基准测试，更是对整个行业的公开挑战。"如果你听信那些炒作，就好像我们应该看到AI医生、AI律师和AI软件工程师，但事实并非如此，"他说。"如果我们在无污染的SWE-Bench上甚至无法获得超过10%的得分，这对我来说就是现实检验。"

来源：Techcrunch

0赞

好文章，需要你的鼓励

AI编程挑战赛首轮结果出炉：最高得分仅7.5%

来源：Techcrunch

2025

07/24

12:59

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

AI编程挑战赛首轮结果出炉：最高得分仅7.5%

国内首个通过主任医师评测的大模型，已在夸克AI搜索上线

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

跨越AI价值鸿沟：远石科技与阿里云的共创之路

AI的“快行动与慢思考”：慧荣科技如何用一个平台，解锁次世代存储的终极问题？

Gartner预测到2027年末，超过40%的代理型AI项目将被取消

汽车软件质量管控新范式：AI 驱动的智能座舱测试革新

智能时代，同球共济！2025世界人工智能大会将于7月26日启幕

AI催生下的价值迁徙，神州数码与阿里云合作的“生态位”再定义

AI落地生花，飞书是真的“跑通”了

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: