研究发现：新版大语言模型虽基准测试分数更高，但代码漏洞更严重

SonarSource研究发现，尽管最新大语言模型在编程基准测试中表现更佳，但同时引入了更多严重漏洞和安全风险。研究测试了Claude、GPT-4o、Llama等模型的4400多个Java编程任务，发现所有模型都存在系统性安全意识缺陷。其中Llama 3.2 90B有超过70%的漏洞被评为最高危险等级，Claude Sonnet 4虽功能测试得分最高，但严重漏洞比例比前代增加93%。研究建议对AI生成代码采用"信任但验证"方法。

代码质量测试初创公司SonarSource SA今日发布的一份新报告警告称，虽然最新的大语言模型在通过编程基准测试方面表现越来越好，但同时它们也在引入更严重的代码错误和安全漏洞。

该研究使用SonarQube Enterprise静态分析引擎，对Anthropic的Claude Sonnet 4和3.7、OpenAI的GPT-4o、Meta的Llama 3.2 90B以及开源的OpenCoder-8B完成的超过4400个Java编程任务进行了分析。

所有测试的模型都展现出了强大的编程技能，例如能够生成语法正确、功能完整的代码并解决复杂的算法问题，但分析也发现了系统性的弱点。最令人担忧的发现是缺乏安全意识，每个模型都产生了高比例的"BLOCKER"级别漏洞，这是最严重的安全等级。

Llama 3.2 90B高居榜首，其超过70%的漏洞被评为BLOCKER级别，其次是GPT-4o的62.5%和Claude Sonnet 4的近60%。研究发现，这些模型生成的代码存在常见缺陷，包括路径遍历、注入风险和硬编码凭据，这些问题源于在跟踪不可信数据流方面的局限性以及从训练集中复制不安全代码。

报告还突出了错误严重程度的问题，在功能基准测试中得分最高的Claude Sonnet 4，产生的BLOCKER级别错误比例几乎是其前代版本Claude 3.7 Sonnet的两倍，增幅高达93%。

许多高影响错误涉及并发问题、资源泄漏和应用程序编程接口契约违规，这些问题类型可能在生产系统中导致不可预测的故障。

GPT-4o最常见的缺陷是控制流错误，占其错误总数的近一半，而OpenCoder-8B则留下了大量冗余、未使用的代码，这些代码可能累积成长期技术债务。

Sonar的研究还为每个模型绘制了"编程个性"图谱。

Claude Sonnet 4被称为"高级架构师"，因为它表现得冗长复杂，能够构建复杂的解决方案，但容易出现脆弱的高风险错误。GPT-4o被称为"高效通才"，提供平衡的复杂性但在逻辑精确度上存在问题；Llama 3.2 90B被称为"未兑现的承诺"，因为它在功能技能平庸的同时安全性最弱；OpenCoder-8B被称为"快速原型师"，适合快速概念验证但整体问题密度最高。最后，Claude 3.7 Sonnet被称为"平衡的前辈"，它对注释最友好，有助于提高可读性，但存在相同的核心安全缺陷。

报告作者写道："功能性能基准测试是衡量大语言模型核心问题解决能力的重要指标，一直是记录行业快速进步的关键部分。我们的发现并非意在贬低这些成就，而是要用额外的背景和理解来丰富它们。"

作者补充说，如果没有系统性的安全和质量审查，组织将面临部署充满严重错误和漏洞的AI生成代码的风险。建议对每一行代码都采用"信任但验证"的方法，无论它是由人类还是大语言模型编写的。

Q&A

Q1：这项研究测试了哪些大语言模型？

A：研究测试了Anthropic的Claude Sonnet 4和3.7、OpenAI的GPT-4o、Meta的Llama 3.2 90B以及开源的OpenCoder-8B，使用SonarQube Enterprise静态分析引擎对超过4400个Java编程任务进行了分析。

Q2：哪个大语言模型产生的安全漏洞最严重？

A：Llama 3.2 90B产生的安全漏洞最严重，超过70%的漏洞被评为BLOCKER级别（最严重等级），其次是GPT-4o的62.5%和Claude Sonnet 4的近60%。

Q3：为什么新版大语言模型会产生更多严重代码错误？

A：主要原因包括缺乏安全意识、在跟踪不可信数据流方面存在局限性，以及从训练集中复制了不安全代码。Claude Sonnet 4虽然功能测试得分最高，但BLOCKER级别错误比前代版本增加了93%。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

研究发现：新版大语言模型虽基准测试分数更高，但代码漏洞更严重

来源：SiliconANGLE

2025

08/14

08:28

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

如何为AI探索构建数据基础设施

名企齐聚！阿里云携手牧原、UU跑腿、新开普等豫企共绘数智未来

Liquid AI推出LFM2-VL模型，让智能手机拥有快速视觉AI能力

Google Photos经典搜索功能快速恢复方法：替代Ask Photos生成式AI搜索

SiMa.ai发布新一代物理AI系统级芯片正式投产

Ai2发布开源AI模型，让机器人在3D空间"规划"动作

曾经的小型研究实验室如何助力英伟达成为万亿美元公司

VS Code发布聊天检查点功能预防AI对话失误

AI道德部署实战指南：CIO如何平衡创新与责任

英伟达将Blackwell GPU引入企业数据中心

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: