近日,Alphabet Inc. 旗下的 Google DeepMind 单位详细介绍了 AlphaEvolve —— 一款能够应对复杂编程和数学挑战的人工智能代理。
该公司表示,已利用 AlphaEvolve 提高其数据中心的效率。此外,这款 AI 代理在数学研究和芯片开发方面也展现出巨大潜力。
AlphaEvolve 采用多步处理流程。当接到编程任务时,该代理借助 Google LLC 的轻量级 Gemini 2.0 Flash 大语言模型,生成多个代码片段。随后,一个自动评估机制会按质量对这些代码片段进行排序。接着,AlphaEvolve 选取最优代码片段,并请求 Gemini 2.0 Flash 对其进行改进。
该代理在多个轮次中对 AI 生成的代码不断进行优化。当 Gemini 2.0 Flash 无法再提供改进建议时,AlphaEvolve 切换到 Gemini 2.0 Pro —— 一款在牺牲部分速度的前提下能大幅提升输出质量的更强大模型。
DeepMind 研究人员在一篇研究论文中详细说明:“AlphaEvolve 的进化过程利用了现代大语言模型对反馈的响应能力,从而发现了在语法和功能上与原始候选池截然不同的候选方案。”
Google 已在多个内部项目中应用了 AlphaEvolve。其中几项举措侧重于矩阵乘法,这是一种 AI 模型用以处理数据的数学运算。矩阵即为将数字按类似电子表格的行和列排列而成的集合。
芯片设计师并非手绘处理器蓝图,而是使用一种称为 Verilog 的编程语法来编写蓝图。在其中一个项目中,AlphaEvolve 协助 Google 工程师优化了一块专为执行矩阵乘法设计的电路的 Verilog 代码。该公司已将这一电路纳入即将推出的 TPU 系列 AI 处理芯片中。
在另一个内部项目中,AlphaEvolve 开发出了一种方法,使 Google 的 Gemini 模型能够将矩阵乘法分解成更小、更易处理的计算任务。据这家搜索巨头表示,这些改进使 Gemini 最关键组件之一的运算速度提升了 23%。
AlphaGo 也帮助该公司提升了数据中心的效率。Google 通过一款名为 Borg 的软件平台管理其基础设施资源。DeepMind 的研究人员详细说明,AlphaEvolve 针对该平台提出的改进目前平均能回收 Google 全舰计算资源的 0.7%。
据这家搜索巨头称,正是使 AlphaEvolve 能够优化数据中心与芯片设计的推理能力,使其在数学研究领域同样大有可为。研究人员在伴随论文发布的一篇博客文章中写道:“为了探索 AlphaEvolve 的适用范围,我们将该系统应用于数学分析、几何、组合学和数论等 50 多个未解问题。该系统的灵活性使我们能在数小时内完成大部分实验。据我们所知,在约 75% 的实验中,它重新发现了最先进的解决方案。”
Google 计划通过早期访问项目向学术界提供这一 AI 代理。此外,该公司正研究未来向更多用户开放使用权限的可能性。
DeepMind 的研究人员写道:“虽然 AlphaEvolve 目前主要应用于数学和计算领域,但其通用性意味着它可被应用于任何解决方案可用算法描述并能自动验证的问题。我们相信,AlphaEvolve 有望在材料科学、药物发现、可持续性以及更广泛的技术与商业应用等众多领域带来变革。”
好文章,需要你的鼓励
OpenAI于周二发布AI浏览器ChatGPT Atlas,目标是让ChatGPT成为搜索和问答的首选界面而非谷歌。该浏览器目前仅支持Mac,但正在开发Windows、iOS和Android版本。Atlas将ChatGPT设为默认搜索选项,并具备记忆功能,可结合浏览历史提供个性化答案。与其他AI浏览器不同,Atlas更专注于强化ChatGPT生态系统,为OpenAI提供更多用户数据和分发控制权,而非改善传统浏览体验。
这项由伊利诺伊大学厦巴纳-香槟分校和滑铁卢大学联合完成的研究,开发了名为VideoScore2的AI视频评估系统,能够像人类专家一样从视觉质量、文本对齐和物理一致性三个维度对AI生成视频进行详细评估,并提供透明的分析过程。该系统在多项测试中显著超越现有评估工具,在准确率上提升近6个百分点,为AI视频行业提供了标准化、可解释的质量评估解决方案,有望推动整个领域的技术进步。
通用汽车宣布计划于2028年推出自动驾驶系统,允许驾驶员双眼离开道路、双手离开方向盘,首先应用于凯迪拉克Escalade IQ。该系统基于现有Super Cruise技术,采用激光雷达、雷达和摄像头感知技术,初期在高速公路使用。通用整合了已关闭的Cruise子公司的技术栈,包括基于500万英里无人驾驶数据训练的AI模型。目前美国仅奔驰拥有商用L3级自动驾驶系统。
滑铁卢大学研究团队提出批评强化学习新方法,让AI模型在学习编程的同时学会批评代码质量。CRITIQUE-CODER模型采用8:2混合训练,不仅保持编程能力还获得代码评价能力。实验显示,该方法让小参数模型超越大模型,4B参数版本在LiveCodeBench达59分,超越基础模型4.8分。更重要的是,批评能力可迁移到逻辑推理等其他领域,为AI训练范式转变指明新方向。