在谷歌因 OpenAI 的 ChatGPT 发布而措手不及的两年多后,该公司现在已大幅加快了步伐。
3 月下旬,Google 推出了一个 AI 推理模型 Gemini 2.5 Pro,在衡量编程和数学能力的多个基准测试中处于行业领先地位。这次发布仅在该科技巨头推出当时最先进的另一个模型 Gemini 2.0 Flash 的三个月之后。
Google 的 Gemini 产品总监兼负责人 Tulsee Doshi 在接受 TechCrunch 采访时表示,公司模型发布频率的提高是为了跟上快速发展的 AI 行业的一部分努力。
"我们仍在努力找出发布这些模型的正确方式 - 获取反馈的正确方式," Doshi 说。
但加快的发布时间表似乎是有代价的。Google 尚未发布其最新模型(包括 Gemini 2.5 Pro 和 Gemini 2.0 Flash)的安全报告,这引发了人们对公司优先考虑速度而非透明度的担忧。
如今,前沿 AI 实验室(包括 OpenAI、Anthropic 和 Meta)在推出新模型时发布安全测试、性能评估和使用案例的报告已成为标准做法。这些报告,有时被称为系统卡片或模型卡片,是多年前由业界和学术界的研究人员提出的。Google 实际上是在 2019 年的一篇研究论文中最早提出模型卡片的公司之一,称其为"机器学习中负责任、透明和可问责实践的方法"。
Doshi 告诉 TechCrunch,公司尚未发布 Gemini 2.5 Pro 的模型卡片,因为它认为该模型是一个"实验性"发布。她表示,这些实验性发布的目标是以有限的方式推出 AI 模型,获取反馈,并在正式发布前对模型进行迭代。
据 Doshi 称,Google 计划在模型正式公开发布时发布 Gemini 2.5 Pro 的模型卡片,并补充说公司已经完成了安全测试和对抗性红队测试。
在后续的消息中,Google 发言人告诉 TechCrunch,安全仍然是公司的"首要任务",并计划在未来发布更多关于其 AI 模型(包括 Gemini 2.0 Flash)的文档。Gemini 2.0 Flash 虽然已经正式发布,但仍然缺少模型卡片。Google 最后发布的模型卡片是一年多前发布的 Gemini 1.5 Pro 的。
系统卡片和模型卡片提供了一些有用的 - 有时是不太光彩的 - 信息,这些信息公司并不总是广泛宣传。例如,OpenAI 为其 o1 推理模型发布的系统卡片揭示,该公司的模型有"策划"对抗人类的倾向,并秘密追求自己的目标。
总的来说,AI 社区将这些报告视为支持独立研究和安全评估的善意努力,但这些报告在近年来变得更加重要。正如 Transformer 此前指出的,Google 在 2023 年向美国政府承诺,将为所有"重要的"、公开的 AI 模型发布"在范围内"的安全报告。该公司也向其他政府做出了类似承诺,承诺"提供公众透明度"。
美国联邦和州级层面都有为 AI 模型开发者制定安全报告标准的监管努力。然而,这些努力的采用和成功都很有限。其中一个较为引人注目的尝试是被否决的加利福尼亚州 SB 1047 法案,该法案遭到科技行业的强烈反对。立法者们还提出了授权美国 AI 安全研究所(美国的 AI 标准制定机构)制定模型发布指南的法案。然而,该安全研究所现在面临着特朗普政府可能削减预算的威胁。
从所有迹象来看,Google 在履行其模型测试报告承诺方面正在落后,同时却比以往任何时候都更快地发布模型。许多专家认为这是一个不好的先例 - 特别是随着这些模型变得更加强大和复杂。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。