AI编程挑战赛首轮结果出炉：最高得分仅7.5%

K Prize是由Databricks和Perplexity联合创始人推出的AI编程挑战赛，首轮比赛结果显示，获胜者巴西工程师Eduardo Rocha de Andrade仅答对7.5%的题目就获得5万美元奖金。该测试基于GitHub真实问题，采用定时提交系统防止针对性训练，与SWE-Bench 75%的最高得分形成鲜明对比。创始人承诺向首个在该测试中得分超过90%的开源模型提供100万美元奖励。

一项新的AI编程挑战赛公布了首轮获胜者，同时为AI驱动的软件工程师设立了新的评估标准。

周三太平洋时间下午5点，非营利组织Laude Institute宣布了K Prize的首位获胜者。K Prize是一项多轮AI编程挑战赛，由Databricks和Perplexity联合创始人Andy Konwinski发起。获胜者是一位名为Eduardo Rocha de Andrade的巴西提示工程师，他将获得5万美元奖金。但比获胜更令人惊讶的是他的最终得分：他仅以7.5%的正确率赢得了比赛。

"我们很高兴构建了一个真正困难的基准测试，"Konwinski说道。"如果基准测试要有意义，就应该具有挑战性，"他继续补充："如果大型实验室用他们最强大的模型参赛，得分会有所不同。但这正是重点所在。K Prize在有限计算资源的离线环境中运行，因此更适合较小的开源模型。我很喜欢这一点，它创造了公平的竞争环境。"

Konwinski承诺向第一个在测试中得分超过90%的开源模型提供100万美元奖励。

与知名的SWE-Bench系统类似，K Prize通过测试模型处理GitHub标记问题的能力来评估其解决现实编程问题的水平。但与基于固定问题集的SWE-Bench不同，K Prize被设计为"无污染版本的SWE-Bench"，采用定时提交系统来防止针对基准的特定训练。在第一轮中，模型需要在3月12日前提交。K Prize组织者随后仅使用该日期之后标记的GitHub问题构建测试。

7.5%的最高得分与SWE-Bench本身形成鲜明对比，后者目前在较简单的"验证"测试中显示75%的最高得分，在较困难的"完整"测试中为34%。Konwinski仍不确定这种差异是由于SWE-Bench的污染问题还是从GitHub收集新问题的挑战性，但他预期K Prize项目很快会给出答案。

"随着我们进行更多轮次的测试，我们会有更好的认识，"他告诉TechCrunch，"因为我们预期人们会适应每几个月在这方面竞争的动态变化。"

考虑到目前已有的大量AI编程工具，这似乎是一个奇怪的短板所在——但随着基准测试变得过于简单，许多批评者认为像K Prize这样的项目是解决AI日益严重的评估问题的必要步骤。

"我非常看好为现有基准构建新测试，"普林斯顿大学研究员Sayash Kapoor说，他在最近的一篇论文中提出了类似想法。"没有这样的实验，我们实际上无法判断问题是污染，还是仅仅是在人工参与下针对SWE-Bench排行榜进行优化。"

对于Konwinski来说，这不仅仅是一个更好的基准测试，更是对整个行业的公开挑战。"如果你听信那些炒作，就好像我们应该看到AI医生、AI律师和AI软件工程师，但事实并非如此，"他说。"如果我们在无污染的SWE-Bench上甚至无法获得超过10%的得分，这对我来说就是现实检验。"

来源：Techcrunch

0赞

好文章，需要你的鼓励

AI编程挑战赛首轮结果出炉：最高得分仅7.5%

来源：Techcrunch

2025

07/24

12:59

分享

点赞

2026年科技行业多元化发展前景与挑战预测

智能体AI推动云安全策略根本性变革

Salesforce推出AI能力框架助力企业数字化转型

大众汽车牵手高通打造智能网联座舱体验

Ruby 4.0.0发布：引入ZJIT编译器和Ruby Box隔离技术

Meta签约三家核能公司为AI数据中心提供6.6吉瓦电力

大多数开发者不信任AI生成代码却不检查

大规模数据中心安全防护中人员因素的关键作用

HPE OneView严重漏洞遭野外攻击利用

安联保险与Anthropic达成全球合作加速负责任AI应用

智能硬件助力Apple Home：Flic物理按钮控制解决方案

CES硬件创新展示与CIO升级决策之间的平衡

AI编程挑战赛首轮结果出炉：最高得分仅7.5%

国内首个通过主任医师评测的大模型，已在夸克AI搜索上线

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

跨越AI价值鸿沟：远石科技与阿里云的共创之路

AI的“快行动与慢思考”：慧荣科技如何用一个平台，解锁次世代存储的终极问题？

Gartner预测到2027年末，超过40%的代理型AI项目将被取消

汽车软件质量管控新范式：AI 驱动的智能座舱测试革新

智能时代，同球共济！2025世界人工智能大会将于7月26日启幕

AI催生下的价值迁徙，神州数码与阿里云合作的“生态位”再定义

AI落地生花，飞书是真的“跑通”了

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: