据 Google 周二在博客文章中表示,Gemini 2.5 是一个新的 AI 推理模型,旨在与 DeepSeek R1 展开竞争,目前在 LMArena 整体评分中排名最高。
Google 将新一代 Gemini 2.5 模型系列描述为"思考型模型",这类模型会在给出最终结果前递归分析答案。根据 LMArena 的基准测试,Gemini 2.5 在推理、科学、数学和代理编程方面处于领先地位。不过,它并非在所有测试中都胜出。例如,在 LiveCodeBench v5 测试中,OpenAI 的 o3-mini 仍然领先于它。
Gemini 2.5 目前正向付费高级用户推出。有 Reddit 用户报告称,他们需要删除并重新安装 Gemini 应用才能看到 2.5 版本。在桌面端,用户可以在 Google AI Studio 中找到 Gemini 2.5。
Google 的 AI 模型相比竞争对手的一大优势在于其高 token 处理率——即理解或生成复杂数据集的能力。Google 一直宣传 Gemini 是能够处理大上下文窗口并具有高 token 输出的 AI。在社交媒体平台 X (前身为 Twitter) 上,人们也在实验 Gemini 2.5 的能力。Google DeepMind 的员工研究员 Fei Xia 成功地将一个简单的三层蛋糕草图转换成了 3D 打印文件。
Google 展示了一段视频,演示了 Gemini 2.5 如何在几秒钟内制作一个简单的无尽跑酷视频游戏。另一位 X 用户则制作了一个简单的飞行模拟视频游戏。
Google 尚未立即回应置评请求。
Gemini 2.5 的推出是 AI 竞技场中投入的最新武器。今年早些时候,来自中国的 DeepSeek R1 的发布让美国 AI 公司警觉起来。DeepSeek 发布了一个免费开源的推理模型,其效率超过了 OpenAI 现有的产品。
Google 也在 AI 领域押下重注。生成式技术已渗透到公司产品组合的方方面面,从搜索到文档都不例外。Google 计划仅在 2025 年就投资 750 亿美元用于 AI 开发。考虑到根据 Grand View Research 的预测,到 2030 年 AI 市场规模将增长到 1.8 万亿美元,Google 在这个领域占据主导地位具有强大的经济动机。
除了 Gemini 2.5,Google 今年早些时候还推出了旨在提供更快推理能力的 Gemini 2.0 Flash Thinking。上个月,Google 发布了 Gemini Code Assist,这是一个具有大量输入 token 支持的免费 AI 编程工具。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。