周四,Laude研究所宣布了其首批"弹弓"(Slingshots)资助计划的获奖项目,旨在"推进人工智能的科学研究和实践应用"。
"弹弓"项目被设计为研究人员的加速器,意在提供大多数学术机构无法获得的资源,无论是资金支持、计算能力,还是产品和工程技术支持。作为回报,获奖者承诺产出某种最终成果,可以是初创公司、开源代码库或其他类型的研究成果。
首批入选队列包含十五个项目,特别关注AI评估这一难题。其中一些项目对TechCrunch读者来说并不陌生,包括命令行编程基准测试Terminal Bench和长期运行的ARC-AGI项目的最新版本。
其他项目则对长期存在的评估问题采取了全新方法。由加州理工学院和德州大学奥斯汀分校研究人员构建的Formula Code项目,旨在评估智能体优化现有代码的能力,而哥伦比亚大学的BizBench项目则提出了针对"白领智能体"的综合基准测试。其他资助项目还探索了强化学习或模型压缩的新结构。
SWE-Bench联合创始人John Boda Yang也是入选队列的一员,他领导着新的CodeClash项目。受到SWE-Bench成功的启发,CodeClash将通过动态竞赛框架来评估代码质量。
Yang告诉TechCrunch:"我确实认为人们继续在核心第三方基准测试上进行评估会推动进步。我有点担心未来基准测试会变得只针对特定公司。"
Q&A
Q1:Laude研究所的"弹弓"资助计划是什么?
A:"弹弓"项目是Laude研究所推出的研究人员加速器,旨在推进人工智能的科学研究和实践应用。该项目为研究人员提供大多数学术机构无法获得的资源,包括资金支持、计算能力以及产品和工程技术支持。
Q2:首批"弹弓"资助计划有多少个项目?主要关注什么领域?
A:首批入选队列包含十五个项目,特别关注AI评估这一难题。项目包括Terminal Bench、ARC-AGI项目最新版本、Formula Code以及BizBench等,涵盖了代码优化评估、白领智能体基准测试等多个方向。
Q3:CodeClash项目有什么特色?
A:CodeClash项目由SWE-Bench联合创始人John Boda Yang领导,受到SWE-Bench成功启发。该项目将通过动态竞赛框架来评估代码质量,采用了全新的代码评估方法。
好文章,需要你的鼓励
微软正式确认配置管理器将转为年度发布模式,并将Intune作为主要创新重点。该变化将于2026年秋季生效,在此之前还有几个版本发布。微软表示此举是为了与Windows客户端安全和稳定性节奏保持一致,优先确保安全可靠的用户体验。配置管理器将专注于安全性、稳定性和长期支持,而所有新功能创新都将在云端的Intune中进行。
这项由圣母大学和IBM研究院联合开展的研究,开发出了名为DeepEvolve的AI科学助手系统,能够像人类科学家一样进行深度文献研究并将创新想法转化为可执行的算法程序。该系统突破了传统AI要么只能改进算法但缺乏创新、要么只能提出想法但无法实现的局限,在化学、生物学、数学等九个科学领域的测试中都实现了显著的算法性能提升,为AI辅助科学发现开辟了新的道路。
人工智能初创公司aiOla推出基于流匹配训练技术的语音AI模型Drax,挑战OpenAI和阿里巴巴等巨头。该模型重新定义语音算法训练方式,能在嘈杂环境中准确识别语音,兼顾速度与准确性。相比OpenAI的Whisper和阿里巴巴Qwen2,Drax采用并行流处理技术,速度提升32倍,词错误率仅7.4%。该模型已在GitHub开源,提供三种规模版本。
卡内基梅隆大学研究团队通过3331次大规模实验,系统揭示了代码训练如何提升AI推理能力。研究发现,代码的结构特性比语义内容更重要,适当的抽象形式(如伪代码)可以达到与原始代码相同的效果。不同编程语言产生差异化影响:低抽象语言有利于数学推理,Python更适合自然语言任务。这些发现为AI训练数据的科学化设计提供了重要指导。