一项新的AI编程挑战赛公布了首轮获胜者,同时为AI驱动的软件工程师设立了新的评估标准。
周三太平洋时间下午5点,非营利组织Laude Institute宣布了K Prize的首位获胜者。K Prize是一项多轮AI编程挑战赛,由Databricks和Perplexity联合创始人Andy Konwinski发起。获胜者是一位名为Eduardo Rocha de Andrade的巴西提示工程师,他将获得5万美元奖金。但比获胜更令人惊讶的是他的最终得分:他仅以7.5%的正确率赢得了比赛。
"我们很高兴构建了一个真正困难的基准测试,"Konwinski说道。"如果基准测试要有意义,就应该具有挑战性,"他继续补充:"如果大型实验室用他们最强大的模型参赛,得分会有所不同。但这正是重点所在。K Prize在有限计算资源的离线环境中运行,因此更适合较小的开源模型。我很喜欢这一点,它创造了公平的竞争环境。"
Konwinski承诺向第一个在测试中得分超过90%的开源模型提供100万美元奖励。
与知名的SWE-Bench系统类似,K Prize通过测试模型处理GitHub标记问题的能力来评估其解决现实编程问题的水平。但与基于固定问题集的SWE-Bench不同,K Prize被设计为"无污染版本的SWE-Bench",采用定时提交系统来防止针对基准的特定训练。在第一轮中,模型需要在3月12日前提交。K Prize组织者随后仅使用该日期之后标记的GitHub问题构建测试。
7.5%的最高得分与SWE-Bench本身形成鲜明对比,后者目前在较简单的"验证"测试中显示75%的最高得分,在较困难的"完整"测试中为34%。Konwinski仍不确定这种差异是由于SWE-Bench的污染问题还是从GitHub收集新问题的挑战性,但他预期K Prize项目很快会给出答案。
"随着我们进行更多轮次的测试,我们会有更好的认识,"他告诉TechCrunch,"因为我们预期人们会适应每几个月在这方面竞争的动态变化。"
考虑到目前已有的大量AI编程工具,这似乎是一个奇怪的短板所在——但随着基准测试变得过于简单,许多批评者认为像K Prize这样的项目是解决AI日益严重的评估问题的必要步骤。
"我非常看好为现有基准构建新测试,"普林斯顿大学研究员Sayash Kapoor说,他在最近的一篇论文中提出了类似想法。"没有这样的实验,我们实际上无法判断问题是污染,还是仅仅是在人工参与下针对SWE-Bench排行榜进行优化。"
对于Konwinski来说,这不仅仅是一个更好的基准测试,更是对整个行业的公开挑战。"如果你听信那些炒作,就好像我们应该看到AI医生、AI律师和AI软件工程师,但事实并非如此,"他说。"如果我们在无污染的SWE-Bench上甚至无法获得超过10%的得分,这对我来说就是现实检验。"
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。