一项新的AI编程挑战赛公布了首轮获胜者,同时为AI驱动的软件工程师设立了新的评估标准。
周三太平洋时间下午5点,非营利组织Laude Institute宣布了K Prize的首位获胜者。K Prize是一项多轮AI编程挑战赛,由Databricks和Perplexity联合创始人Andy Konwinski发起。获胜者是一位名为Eduardo Rocha de Andrade的巴西提示工程师,他将获得5万美元奖金。但比获胜更令人惊讶的是他的最终得分:他仅以7.5%的正确率赢得了比赛。
"我们很高兴构建了一个真正困难的基准测试,"Konwinski说道。"如果基准测试要有意义,就应该具有挑战性,"他继续补充:"如果大型实验室用他们最强大的模型参赛,得分会有所不同。但这正是重点所在。K Prize在有限计算资源的离线环境中运行,因此更适合较小的开源模型。我很喜欢这一点,它创造了公平的竞争环境。"
Konwinski承诺向第一个在测试中得分超过90%的开源模型提供100万美元奖励。
与知名的SWE-Bench系统类似,K Prize通过测试模型处理GitHub标记问题的能力来评估其解决现实编程问题的水平。但与基于固定问题集的SWE-Bench不同,K Prize被设计为"无污染版本的SWE-Bench",采用定时提交系统来防止针对基准的特定训练。在第一轮中,模型需要在3月12日前提交。K Prize组织者随后仅使用该日期之后标记的GitHub问题构建测试。
7.5%的最高得分与SWE-Bench本身形成鲜明对比,后者目前在较简单的"验证"测试中显示75%的最高得分,在较困难的"完整"测试中为34%。Konwinski仍不确定这种差异是由于SWE-Bench的污染问题还是从GitHub收集新问题的挑战性,但他预期K Prize项目很快会给出答案。
"随着我们进行更多轮次的测试,我们会有更好的认识,"他告诉TechCrunch,"因为我们预期人们会适应每几个月在这方面竞争的动态变化。"
考虑到目前已有的大量AI编程工具,这似乎是一个奇怪的短板所在——但随着基准测试变得过于简单,许多批评者认为像K Prize这样的项目是解决AI日益严重的评估问题的必要步骤。
"我非常看好为现有基准构建新测试,"普林斯顿大学研究员Sayash Kapoor说,他在最近的一篇论文中提出了类似想法。"没有这样的实验,我们实际上无法判断问题是污染,还是仅仅是在人工参与下针对SWE-Bench排行榜进行优化。"
对于Konwinski来说,这不仅仅是一个更好的基准测试,更是对整个行业的公开挑战。"如果你听信那些炒作,就好像我们应该看到AI医生、AI律师和AI软件工程师,但事实并非如此,"他说。"如果我们在无污染的SWE-Bench上甚至无法获得超过10%的得分,这对我来说就是现实检验。"
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。