Anthropic推出了一种更全面但价格昂贵的代码审查方式,用于审查托管存储库中的源代码,这些存储库中许多已经包含大量AI生成的代码。
Code Review是面向团队和企业客户的新服务,它部署多个智能体来全面扫描代码库,协同发现未识别的bug。
该公司的Claude模型已经能够按需进行代码审查——你可以让Claude审查自己生成的代码来了解AI生成代码的质量。这家AI公司还提供Claude Code GitHub Action,可以作为CI/CD流水线的一部分自动启动代码审查。
Code Review将执行更多此类工作,但成本更高。
"Code Review分析您的GitHub拉取请求,并在发现问题的代码行上以内联注释的形式发布发现结果,"该公司在其文档中解释道。"一群专门的智能体在您完整代码库的上下文中检查代码更改,寻找逻辑错误、安全漏洞、边界情况错误和细微的回归问题。"
一群专门的智能体?这听起来可能在推理过程中消耗大量Token。事实确实如此。正如Anthropic所观察到的,Code Review注重深度,比现有方法更加深入。
"审查按Token使用量计费,通常平均花费15-25美元,费用随拉取请求的大小和复杂性而变化,"该公司表示。
这是每个拉取请求的费用。作为比较,提供基于AI代码审查的Code Rabbit每月收费24美元。
Code Review的速度也不是很快。虽然所需时间因拉取请求的大小而异,但据Anthropic称,审查平均需要大约20分钟才能完成。
考虑到所需的时间和计费费率,问题就变成了是否支付每小时60美元让人工进行代码审查会产生相当或更好的结果。
尽管如此,这家AI公司坚持认为其工程师使用Code Review看到了积极的结果,这一发现在一些研究中得到了支持,但并非在所有情况下都如此。
Anthropic报告称,它已经在内部使用Code Review数月,取得了相当大的成功。该公司声称,对于包含超过1000行变更的大型拉取请求,84%的自动审查会发现值得注意的问题——平均发现7.5个问题。对于少于50行的小型拉取请求,31%会获得评论,平均发现0.5个问题。
人类开发者拒绝Claude发现的问题不到1%。
正在测试Code Review的客户已经看到了一些好处。当TrueNAS为其开源中间件进行ZFS加密重构时,AI审查服务发现了相邻代码中的一个bug,这个bug可能导致类型不匹配在同步操作期间擦除加密密钥缓存。
Anthropic声称,在一个涉及内部代码的实例中,Code Review捕获了对生产服务的一个看似无害的单行更改,这个更改本来会破坏服务的身份验证机制。
"它在合并前就被修复了,工程师后来分享说他们自己不会发现这个问题,"这家AI公司表示。
在大到能够负担AI工具的组织中,软件开发者再也不会独自工作了。
Q&A
Q1:Anthropic的Code Review服务是什么?它有什么功能?
A:Code Review是Anthropic面向团队和企业客户推出的新服务,它部署多个专门的智能体来全面扫描代码库,寻找逻辑错误、安全漏洞、边界情况错误和细微的回归问题,并在GitHub拉取请求中以内联注释形式提供审查结果。
Q2:使用Code Review服务需要多少费用?
A:Code Review按Token使用量计费,每个拉取请求通常平均花费15-25美元,具体费用随拉取请求的大小和复杂性而变化。审查过程平均需要大约20分钟完成。
Q3:Code Review服务的效果如何?
A:据Anthropic报告,对于超过1000行变更的大型拉取请求,84%的自动审查会发现问题,平均发现7.5个问题;对于少于50行的小型拉取请求,31%会获得评论。人类开发者拒绝Claude发现的问题不到1%,显示了较高的准确性。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。