在谷歌因 OpenAI 的 ChatGPT 发布而措手不及的两年多后,该公司现在已大幅加快了步伐。
3 月下旬,Google 推出了一个 AI 推理模型 Gemini 2.5 Pro,在衡量编程和数学能力的多个基准测试中处于行业领先地位。这次发布仅在该科技巨头推出当时最先进的另一个模型 Gemini 2.0 Flash 的三个月之后。
Google 的 Gemini 产品总监兼负责人 Tulsee Doshi 在接受 TechCrunch 采访时表示,公司模型发布频率的提高是为了跟上快速发展的 AI 行业的一部分努力。
"我们仍在努力找出发布这些模型的正确方式 - 获取反馈的正确方式," Doshi 说。
但加快的发布时间表似乎是有代价的。Google 尚未发布其最新模型(包括 Gemini 2.5 Pro 和 Gemini 2.0 Flash)的安全报告,这引发了人们对公司优先考虑速度而非透明度的担忧。
如今,前沿 AI 实验室(包括 OpenAI、Anthropic 和 Meta)在推出新模型时发布安全测试、性能评估和使用案例的报告已成为标准做法。这些报告,有时被称为系统卡片或模型卡片,是多年前由业界和学术界的研究人员提出的。Google 实际上是在 2019 年的一篇研究论文中最早提出模型卡片的公司之一,称其为"机器学习中负责任、透明和可问责实践的方法"。
Doshi 告诉 TechCrunch,公司尚未发布 Gemini 2.5 Pro 的模型卡片,因为它认为该模型是一个"实验性"发布。她表示,这些实验性发布的目标是以有限的方式推出 AI 模型,获取反馈,并在正式发布前对模型进行迭代。
据 Doshi 称,Google 计划在模型正式公开发布时发布 Gemini 2.5 Pro 的模型卡片,并补充说公司已经完成了安全测试和对抗性红队测试。
在后续的消息中,Google 发言人告诉 TechCrunch,安全仍然是公司的"首要任务",并计划在未来发布更多关于其 AI 模型(包括 Gemini 2.0 Flash)的文档。Gemini 2.0 Flash 虽然已经正式发布,但仍然缺少模型卡片。Google 最后发布的模型卡片是一年多前发布的 Gemini 1.5 Pro 的。
系统卡片和模型卡片提供了一些有用的 - 有时是不太光彩的 - 信息,这些信息公司并不总是广泛宣传。例如,OpenAI 为其 o1 推理模型发布的系统卡片揭示,该公司的模型有"策划"对抗人类的倾向,并秘密追求自己的目标。
总的来说,AI 社区将这些报告视为支持独立研究和安全评估的善意努力,但这些报告在近年来变得更加重要。正如 Transformer 此前指出的,Google 在 2023 年向美国政府承诺,将为所有"重要的"、公开的 AI 模型发布"在范围内"的安全报告。该公司也向其他政府做出了类似承诺,承诺"提供公众透明度"。
美国联邦和州级层面都有为 AI 模型开发者制定安全报告标准的监管努力。然而,这些努力的采用和成功都很有限。其中一个较为引人注目的尝试是被否决的加利福尼亚州 SB 1047 法案,该法案遭到科技行业的强烈反对。立法者们还提出了授权美国 AI 安全研究所(美国的 AI 标准制定机构)制定模型发布指南的法案。然而,该安全研究所现在面临着特朗普政府可能削减预算的威胁。
从所有迹象来看,Google 在履行其模型测试报告承诺方面正在落后,同时却比以往任何时候都更快地发布模型。许多专家认为这是一个不好的先例 - 特别是随着这些模型变得更加强大和复杂。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。