据 Google 周二在博客文章中表示,Gemini 2.5 是一个新的 AI 推理模型,旨在与 DeepSeek R1 展开竞争,目前在 LMArena 整体评分中排名最高。
Google 将新一代 Gemini 2.5 模型系列描述为"思考型模型",这类模型会在给出最终结果前递归分析答案。根据 LMArena 的基准测试,Gemini 2.5 在推理、科学、数学和代理编程方面处于领先地位。不过,它并非在所有测试中都胜出。例如,在 LiveCodeBench v5 测试中,OpenAI 的 o3-mini 仍然领先于它。
Gemini 2.5 目前正向付费高级用户推出。有 Reddit 用户报告称,他们需要删除并重新安装 Gemini 应用才能看到 2.5 版本。在桌面端,用户可以在 Google AI Studio 中找到 Gemini 2.5。
Google 的 AI 模型相比竞争对手的一大优势在于其高 token 处理率——即理解或生成复杂数据集的能力。Google 一直宣传 Gemini 是能够处理大上下文窗口并具有高 token 输出的 AI。在社交媒体平台 X (前身为 Twitter) 上,人们也在实验 Gemini 2.5 的能力。Google DeepMind 的员工研究员 Fei Xia 成功地将一个简单的三层蛋糕草图转换成了 3D 打印文件。
Google 展示了一段视频,演示了 Gemini 2.5 如何在几秒钟内制作一个简单的无尽跑酷视频游戏。另一位 X 用户则制作了一个简单的飞行模拟视频游戏。
Google 尚未立即回应置评请求。
Gemini 2.5 的推出是 AI 竞技场中投入的最新武器。今年早些时候,来自中国的 DeepSeek R1 的发布让美国 AI 公司警觉起来。DeepSeek 发布了一个免费开源的推理模型,其效率超过了 OpenAI 现有的产品。
Google 也在 AI 领域押下重注。生成式技术已渗透到公司产品组合的方方面面,从搜索到文档都不例外。Google 计划仅在 2025 年就投资 750 亿美元用于 AI 开发。考虑到根据 Grand View Research 的预测,到 2030 年 AI 市场规模将增长到 1.8 万亿美元,Google 在这个领域占据主导地位具有强大的经济动机。
除了 Gemini 2.5,Google 今年早些时候还推出了旨在提供更快推理能力的 Gemini 2.0 Flash Thinking。上个月,Google 发布了 Gemini Code Assist,这是一个具有大量输入 token 支持的免费 AI 编程工具。
好文章,需要你的鼓励
联想在CES展会上发布了AI助手Qira,该系统可跨联想和摩托罗拉设备生态运行,包括智能手机、可穿戴设备、PC和平板等。Qira不仅是聊天机器人,还能执行实际任务,如设备间文件传输。该系统具备情境感知能力,通过融合知识库创建个性化体验。联想强调隐私保护,优先本地处理数据。Qira将于2026年第一季度首先在联想设备上推出。摩托罗拉还展示了搭载Qira的AI可穿戴设备Project Maxwell概念产品。
剑桥大学研究团队首次系统探索AI在多轮对话中的信心判断问题。研究发现当前AI系统在评估自己答案可靠性方面存在严重缺陷,容易被对话长度而非信息质量误导。团队提出P(SUFFICIENT)等新方法,但整体问题仍待解决。该研究为AI在医疗、法律等关键领域的安全应用提供重要指导,强调了开发更可信AI系统的紧迫性。
在CES 2026主题演讲中,麦肯锡全球管理合伙人鲍勃·斯特恩费尔斯和通用催化剂CEO赫曼特·塔内贾表示,AI正以前所未有的速度重塑技术领域。塔内贾指出,Anthropic估值在一年内从600亿美元飙升至数千亿美元,预计将出现新一波万亿美元公司。然而,非技术企业对AI全面采用仍持观望态度。两位高管强调,人们必须认识到技能培训和再培训将是终身事业,传统的22年学习40年工作模式已被打破。
威斯康星大学研究团队开发出Prithvi-CAFE洪水监测系统,通过"双视觉协作"机制解决了AI地理基础模型在洪水识别上的局限性。该系统巧妙融合全局理解和局部细节能力,在国际标准数据集上创造最佳成绩,参数效率提升93%,为全球洪水预警和防灾减灾提供了更准确可靠的技术方案。