Google 宣布其 AI 编程助手 Gemini Code Assist 正在预览版中获得新的"代理"功能。
在周三举行的 Cloud Next 大会上,Google 表示 Code Assist 现在可以部署新的 AI "代理",能够通过多个步骤完成复杂的编程任务。这些代理可以根据 Google Docs 中的产品规格说明创建应用程序,或者执行从一种编程语言到另一种语言的代码转换。除了其他编程环境外,Code Assist 现在也可在 Android Studio 中使用。
Code Assist 的升级很可能是为了应对来自 GitHub Copilot、Cursor 和病毒式编程工具 Devin 开发商 Cognition Labs 等竞争对手的压力。AI 编程助手市场竞争日益激烈,其中蕴含着巨大的商机。考虑到这项技术能够显著提升生产力,这种现象也不足为奇。
公司称,这些可以通过新的 Gemini Code Assist 看板进行管理的代理能够生成工作计划,并对任务请求提供逐步进度报告。除了生成软件和迁移代码外,这些代理还可以实现新的应用功能、执行代码审查,以及生成单元测试和文档。
然而,Code Assist 在执行这些任务时的实际表现如何还不得而知。研究表明,即使是当今最优秀的代码生成 AI 也往往会引入安全漏洞和程序错误,这主要是由于在理解编程逻辑等方面存在不足。最近对 Devin 的一项评估发现,它在 20 个任务中只成功完成了 3 个。
因此,如果你使用 Code Assist 来创建或重构应用程序,为了安全起见,最好还是亲自检查一下代码。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。