加州大学伯克利分校的计算机科学家表示,AI模型在算法发现和优化方面展现出巨大潜力。
在一篇题为"Barbarians at the Gate: How AI is Upending Systems Research"的预印本论文中,17名伯克利大学研究人员描述了他们如何使用OpenEvolve(Google DeepMind的AlphaEvolve开源实现)来改进负载均衡算法,显著超越了之前的人工设计。
具体来说,作者声称使用OpenEvolve实现了专家并行负载均衡器(EPLB)算法的5倍加速。该算法用于大语言模型中,将Token路由到专门的专家模块,这是一种减少处理参数数量的效率机制。
作者表示,通过AI驱动的系统研究(ADRS),AI模型可以迭代生成、评估和优化解决方案,有望改变系统研究。论文指出:"随着AI在算法设计中发挥核心作用,我们认为人类研究者将越来越专注于问题制定和战略指导。我们的结果突出了破坏性潜力以及在AI时代适应系统研究实践的迫切需要。"
Google在5月份推广了AlphaEvolve,这是一个"进化编码智能体",它提高了Google数据中心编排的效率,优化了张量处理单元硬件中的矩阵乘法操作,并优化了基于Transformer的AI模型中的FlashAttention内核实现。
为了进一步强调机器学习作为算法发现机制的潜力,本周发表在《自然》杂志上的一篇来自Google DeepMind研究人员的论文描述了"一种通过多代智能体与各种环境交互的经验来自主发现强化学习规则的方法"。到目前为止,DeepMind研究人员声称,自动化方法未能超越人类设计的强化学习系统。
伯克利大学团队现在通过让OpenEvolve找出处理大语言模型推理的GPU负载均衡的更高效方法,展示了基于AI优化工作的价值。
研究人员从DeepSeek的开源EPLB实现开始,他们指出该实现速度较慢,因为它用Python编写并依赖for循环来进行线性搜索以找到处理专家模块工作负载的最佳GPU。平均而言,DeepSeek版本需要约540毫秒来重新平衡GPU上的专家模块。
他们还研究了来自一个未公开前沿实验室的非公开EPLB实现,该实现在19.6毫秒内处理重新平衡。
OpenEvolve使用80%的Gemini 2.5 Flash和20%的Gemini 2.5 Flash Lite组合,成本不到10美元,用时5小时,提出了一种将专家模块打包到GPU中的更高效方法——它用向量化张量操作替换了循环,并实现了锯齿分区方案,运行时间仅为3.7毫秒。
这比未公开的参考实现快5.0倍,比DeepSeek的实现快146倍。
伯克利大学论文中描述的另一个案例研究报告称,通过使用OpenEvolve,作者能够将关系分析的速度提高3倍,其中SQL查询对每行调用大语言模型推理操作。
当被问及OpenEvolve的"推理"是否只是连接人们在可用数据中遗漏的点,还是显示出新颖方法的证据时,共同作者、伯克利大学博士候选人Audrey Cheng通过电子邮件告诉The Register:"我认为这些问题很难明确回答(因为它们归结为大语言模型是否真正在'思考'或只是进行复杂的概率计算)。"
"大语言模型确实受益于在比任何个人研究者能够理解的更大文献语料库上的训练,这使它在发现应用其他领域思想的新方法方面具有优势。目前在系统/数据库性能研究中,如果算法在某种程度上显示出显著改进,我们就认为算法是'新颖的',即使它们借用了其他领域的思想(例如,见我的将网络/操作系统公平共享思想应用于数据库的论文)。基于这个标准,是的,这些发展将被研究标准认为是新颖的。"
当被问及OpenEvolve是否只是从已知数据中暴力破解新颖性还是具有"创造性"时,Cheng说这也是一个困难的问题。
"我认为思考这个问题的一种方式是思考人类现在如何想出想法,"Cheng说。"作为研究者,我们知道我们'站在巨人的肩膀上'。只有深入理解他人的想法,我们才能想出'新颖的'解决方案。创造过程需要已知数据。OpenEvolve使用这些数据并将其应用于新问题(也可能想出意想不到的解决方案)。所以,我会说ADRS框架是有创造性的。"
Cheng说她相信ADRS的潜在影响是巨大的。
"我们专注于系统性能问题,因为AI已经可以在这里击败人类专家解决方案,"她解释道。"性能问题通常更容易验证,我们已经在行业中看到了一些初步采用(例如,见Datadog最近的博客文章)。我预期大多数大规模运行系统的公司最终将使用某种形式的ADRS进行性能调优。"
一旦研究人员弄清楚如何对安全性和容错性等其他问题进行验证,Cheng期望ADRS能够提出更多新颖的解决方案。
"目前的瓶颈是拥有强大的评估和验证框架,"她解释道。"如果这些到位,我想象ADRS可以广泛应用于各种系统问题(也超越计算机科学)。"
Q&A
Q1:OpenEvolve是什么?它有什么作用?
A:OpenEvolve是Google DeepMind的AlphaEvolve的开源实现,它是一个"进化编码智能体"。在这项研究中,OpenEvolve被用来改进负载均衡算法,通过向量化张量操作和锯齿分区方案,将专家并行负载均衡器的运行时间从19.6毫秒缩短到3.7毫秒,实现了5倍加速。
Q2:AI驱动的系统研究能做什么?
A:AI驱动的系统研究(ADRS)可以让AI模型迭代生成、评估和优化解决方案。目前主要用于系统性能问题,因为AI已经能够超越人类专家解决方案。研究显示,这种方法不仅能优化负载均衡算法,还能将关系分析中SQL查询调用大语言模型推理操作的速度提高3倍。
Q3:使用OpenEvolve优化算法的成本高吗?
A:成本相对较低。研究中使用80%的Gemini 2.5 Flash和20%的Gemini 2.5 Flash Lite组合,总成本不到10美元,用时5小时就完成了专家并行负载均衡器算法的优化,实现了显著的性能提升。
好文章,需要你的鼓励
英国政府发布新的反勒索软件指导文件,旨在解决供应链安全薄弱环节。该指南与新加坡当局联合制定,帮助组织识别供应链问题并采取实际措施检查供应商安全性。英国国家网络安全中心过去一年处理了204起"国家重大"网络安全事件。指南强调选择安全可靠的供应商、加强合同网络安全条款、进行独立审计等措施,以提升供应链韧性和防范网络攻击。
复旦大学团队创建MedQ-Bench基准,首次系统评估AI模型医学影像质量评估能力。研究覆盖五大成像模式,设计感知-推理双层评估体系,意外发现医学专用AI表现不如通用AI。结果显示最佳AI模型准确率仅68.97%,远低于人类专家82.50%,揭示了AI在医学影像质控应用中的现实挑战和改进方向。
OpenAI发布"企业知识"功能,为ChatGPT商业版、企业版和教育版用户提供连接组织数据的能力。该功能集成Slack、SharePoint、Google Drive、Teams和Outlook等应用,但不包含OneDrive。用户需单独验证每个连接器,数据经过加密且不用于训练。与微软365 Copilot的30美元月费相比,ChatGPT商业版仅需25美元,在品牌认知度和价格方面具有竞争优势。
石溪大学等机构联合开发的TimeSeriesScientist是全球首个端到端AI时间序列分析系统,通过四个AI智能体协同工作,能完全自主完成从数据清理到预测报告的全流程。该系统在八个领域测试中表现卓越,预测误差比传统方法降低10.4%,比其他AI方法降低38.2%,并能生成详尽的可解释报告,将专业级数据分析能力民主化。