随着越来越多的人使用 AI 工具编写代码,这些工具本身正在引入更多的安全漏洞。
佐治亚理工学院 SSLab 的研究人员一直在跟踪可归因于 AI 生成代码缺陷的 CVE 漏洞。
去年 8 月,他们发现了两个可以明确与 Claude Code 关联的 CVE 漏洞 — CVE-2025-55526(n8n-workflows 中严重性为 9.1 的目录遍历漏洞)和 GHSA-3j63-5h8p-gf7c(x402 SDK 中的输入处理不当错误)。
今年 3 月,他们识别出 35 个 CVE 漏洞 — 其中 27 个由 Claude Code 生成,4 个由 GitHub Copilot 生成,2 个由 Devin 生成,Aether 和 Cursor 各生成 1 个。
Claude Code 的过度代表性似乎源于其最近的人气激增。根据软件工程师 Jodan Alberts 创建的分析网站 Claude's Code 显示,在过去 90 天里,Claude Code 已向公共代码库添加了超过 307 亿行代码。
佐治亚理工学院的研究人员从 2025 年 5 月 1 日开始测量,截至 2026 年 3 月 20 日,CVE 记分卡显示:
Claude Code:49 个(11 个严重)
GitHub Copilot:15 个(2 个严重)
Aether:2 个
Google Jules:2 个(1 个严重)
Devin:2 个
Cursor:2 个
Atlassian Rovo:1 个
Roo Code:1 个
在分析的 43,849 个安全通告中,有 74 个 CVE 可归因于 AI 编写的代码。
佐治亚理工学院 SSLab 研究员赵汉卿在接受《The Register》邮件采访时表示,这些 AI CVE 应该被视为下限值,而不是比例。
"这 74 个案例是我们找到明确证据表明 AI 生成的代码导致漏洞的确认实例,"他说。"这并不意味着其他约 50,000 个案例都是人工编写的,而是意味着我们无法在这些案例中检测到 AI 的参与。
"以 OpenClaw 为例,它有超过 300 个安全通告,看起来大量使用了 AI 编码,但大多数 AI 痕迹已被清除。我们只能确信地确认约 20 个具有明确 AI 信号的案例。基于这样的项目,我们估计真实数字可能比我们目前检测到的高 5 到 10 倍。"
赵汉卿表示,CVE 数量不应被解读为 AI 代码工具因为数量低就能提供更安全的代码的标志。
"仅 Claude Code 就出现在 GitHub 上超过 4% 的公共提交中,"他解释说。"如果 AI 真的只对 50,000 个公共漏洞中的 74 个负责,那将意味着 AI 生成的代码比人工编写的代码安全几个数量级。我们认为这是不可信的。"
他说,低数字"反映的是检测盲点,而不是优秀的 AI 代码质量。"
佐治亚理工学院的发现印证了乔治城大学安全与新兴技术中心于 2024 年 11 月发布的研究。
基于对 GPT-3.5-turbo、GPT-4、Code Llama 7B Instruct、WizardCoder 7B 和 Mistral 7B Instruct 的测试,乔治城研究人员发现,"在所有五个模型中,大约 48% 的生成代码片段可以编译,但包含被 ESBMC(基于 SMT 的高效上下文界限模型检查器)标记的错误,我们将其定义为不安全代码。"
大约 30% 的生成代码片段通过了 ESMBC 验证,被认为是安全的。
赵汉卿表示,正在提交的 AI 生成代码数量正在激增。"端到端编码智能体目前正在兴起,"他解释说。"仅 Claude Code 在 GitHub 上就有超过 1500 万次总提交,占所有公共提交的 4% 以上。
"这部分反映了更多人在使用 AI 工具。但这不仅仅是数量问题。人们使用这些工具的方式正在发生变化。一年前,大多数开发者使用 AI 进行自动补全。现在人们正在对整个项目进行随性编码,提交他们几乎没有阅读过的代码。这是一个不同的风险档案。"
Q&A
Q1:AI 生成的代码真的比人工代码更安全吗?
A:研究表明并非如此。虽然目前检测到的 AI 相关 CVE 漏洞数量相对较低,但这主要反映的是检测盲点,而不是 AI 代码质量更优。实际上,约 48% 的 AI 生成代码包含安全缺陷,只有 30% 被认为是安全的。
Q2:Claude Code 在代码安全漏洞中占多大比例?
A:根据佐治亚理工学院的研究,截至 2026 年 3 月,在 74 个可归因于 AI 的 CVE 漏洞中,Claude Code 占 49 个(其中 11 个为严重级别),这与其在 GitHub 上超过 4% 的公共提交占比和最近的人气激增有关。
Q3:为什么 AI 编码工具会带来安全风险?
A:主要原因包括:AI 工具本身会引入漏洞,人们使用方式的改变(从自动补全转向整个项目的随性编码),以及开发者提交他们几乎没有仔细阅读的 AI 生成代码,这创造了不同的风险档案。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。