作为谷歌开发者工具项目经理,Ryan Salva对AI工具如何改变编程拥有第一手观察。他曾在GitHub和微软工作,现在负责Gemini CLI和Gemini Code Assist等工具,引导开发者进入智能体编程的新世界。
他的团队周二发布了新的第三方研究,显示开发者如何实际使用AI工具,以及还有多少进展空间。我与Salva坐下来讨论了这份报告和他使用AI编程工具的个人经验。
以下访谈内容经过编辑以保持长度和清晰度。
**关于开发者AI工具使用趋势**
谷歌每年都会进行开发者趋势调查,但今年的报告真正聚焦于AI工具,特别是开发者在编程方法上愿意接受智能体化的程度。研究中有什么令你惊讶的发现吗?
一个非常有趣的发现是开发者开始使用AI工具的中位日期。研究发现是2024年4月,这与Claude 3和Gemini 2.5的发布时间非常吻合。这真正标志着推理或思考模型的黎明,同时我们在工具调用方面也变得更加出色。
对于编程任务,你真的需要能够利用外部信息来解决问题,所以它可能需要搜索,可能需要编译代码。如果代码编译了,它可能想要运行单元测试和集成测试。我认为工具调用真的是让模型在执行过程中能够自我纠正的重要组件。
**个人使用AI编程工具的体验**
你个人是如何使用AI编程工具的?
我现在的大部分编程都是业余项目,我花大部分时间使用基于命令行的工具。这包括Gemini CLI,然后还有一点Claude Code,一点Codex。你从来不会单独使用基于终端的工具,所以我在使用的IDE方面真的很多样化。我使用Zed、VS Code、Cursor、Windsurf,所有这些,因为我只是想看看世界是如何运作的,行业是如何发展的。
在专业方面,产品经理往往生活在文档中,所以第一件事就是使用AI帮助我编写规范和需求文档。
你使用Gemini CLI来构建Gemini CLI很有趣,但我想它不会自己运行自己吧?
开发任务通常从一个问题开始,也许是有人在GitHub上提交的一个bug问题。老实说,通常这是一个规范不够完整的问题。所以我会使用Gemini CLI来创建一个更强大的Markdown需求文档。这通常会创建大约100行相当技术性但也以结果为导向的规范。然后我会使用Gemini CLI基于该规范和团队文档中的一般偏好来编写代码。
在整个工程团队中,我们有几个不同层次的规则和Markdown文档供模型使用,只是规定我们的工作方式:这是我们如何进行测试的,这是我们如何管理依赖关系的,等等。所以当它生成代码时,它也在基于这些文档工作。
当Gemini CLI进行故障排除时,我会让它更新我的需求文档,说"我修复了这一步。现在我要进行下一步",等等。每一个都在存储库中创建自己的提交和拉取请求,所以我总是可以回退或撤销。
我会说我70%到80%的工作是我在终端中使用自然语言工作,尝试使用Gemini CLI来制作需求,然后让Gemini CLI为我编写大部分代码,然后我会用我碰巧使用的任何IDE去审查和阅读。但主要是我把IDE用作阅读代码的地方,而不是编写代码的地方。
**编程的未来展望**
你认为原始计算机代码有未来吗?还是我们会把所有东西都转移到终端窗口?
三十年来,IDE是我们进行软件开发的所有工作的地方。你有IDE,你有浏览器,你有终端窗口。
我认为这在很大程度上仍然是这样,但我怀疑随着时间的推移,我们最终会花更多时间处理需求,而在IDE中花费的时间会逐渐缩短。我认为这种变化实际上可能会在相当长的时间范围内发生。
对于软件开发作为一个职业发展道路意味着什么,存在很多焦虑。如果10年后,我们不再看代码,这对开发者意味着什么?他们还会有工作吗?
我认为你作为开发者的工作将更像一个架构师。它将涉及接受大型、复杂的问题并将其分解为更小的、可解决的任务。你需要思考你试图产生的更大图景,而不是为了用机器代码表达而使用的中间语言。
Q&A
Q1:Gemini CLI是什么?有什么特别之处?
A:Gemini CLI是谷歌开发的基于命令行的AI编程工具。它的特别之处在于能够使用自然语言与开发者交互,帮助制作需求文档并根据规范自动编写代码,还能进行故障排除和自我纠正。
Q2:AI编程工具会取代传统的IDE开发环境吗?
A:不会完全取代,但会改变使用方式。未来开发者可能会花更多时间处理需求,在IDE中的时间逐渐缩短。IDE更多会被用作阅读代码的地方,而不是编写代码的地方。这种变化会在相当长的时间范围内发生。
Q3:AI编程工具普及后开发者的工作会消失吗?
A:不会消失但会转变。开发者的工作将更像架构师,主要负责将大型复杂问题分解为更小的可解决任务,需要思考更大的图景和整体架构,而不是专注于具体的代码实现细节。
好文章,需要你的鼓励
Google Photos正向美国Android用户推出会话式编辑功能,用户可通过语音或文字提示来编辑照片,而无需手动操作。该功能首先在Pixel 10手机上推出,现已扩展到更多设备。用户需将Google账户设置为英文,并开启人脸分组和位置估算功能。通过点击"帮我编辑"按钮,用户可直接说出编辑需求,如去除背景中的陌生人、调亮颜色或消除眩光。该功能使用先进的Gemini技术,并提供原图与编辑后照片的对比显示。
字节跳动团队提出RewardDance框架,首次系统性解决视觉生成中的奖励模型扩展问题。该框架通过将奖励预测转为生成式任务,并将模型规模扩展至260亿参数,同时集成任务指令、参考样例和推理能力,有效解决了"奖励作弊"问题。实验显示,在文本生成图像任务中质量提升10.7分,视频生成性能改善49%,达到行业领先水平,为AI视觉创作提供了更强大可靠的技术基础。
本文深入分析了斯坦福大学AI安全中心举办的研讨会所展示的AI安全领域最新进展。文章探讨了AI安全的两个重要方向:构建更安全的AI和让AI变得更安全,强调这两种方法需要有机结合。通过分析物理AI(如人形机器人)与生成式AI结合的安全挑战,以及可达性分析在AI安全中的应用,展现了当前AI安全研究的前沿技术和实际应用场景。
ByteDance团队开发的Mini-o3系统通过深度多轮推理突破了传统AI视觉理解的局限。该系统能像人类侦探般进行几十轮的视觉探索,在困难的视觉搜索任务上准确率达48%,相比现有模型提升显著。核心创新包括挑战性的Visual Probe数据集、多样化推理策略训练和突破性的过轮掩码技术,实现了测试时思考轮数的自然扩展。