Gemini 2.5 Pro 问世：提供更强大的性能和更出色的体验

Google 发布全新的 Gemini 2.5 Pro 实验版模型，号称是其"最智能"的 AI 模型。该模型具备 100 万 token 的上下文窗口、多模态处理能力和推理能力，在多项基准测试中表现优异。测试结果表明，这是目前最令人印象深刻的生成式 AI 模型之一。

继几个月前发布首个 Gemini 2.0 AI 模型后，Google 又推出了全新升级。该公司称新的 Gemini 2.5 Pro Experimental 是其"最智能"的模型，具有超大的上下文窗口、多模态能力和推理能力。Google 展示了一系列基准测试，显示新版 Gemini 远超其他大语言模型 (LLM)，我们的测试也证实了这一点——Gemini 2.5 Pro 是我们见过的最令人印象深刻的生成式 AI 模型之一。

与 Google 未来所有的模型一样，Gemini 2.5 内置推理功能。AI 在生成输出的过程中会对自身进行事实核查。我们称之为"模拟推理"，因为目前没有证据表明这个过程类似于人类推理。不过，这确实能大幅提升 LLM 的输出质量。Google 特别提到模型的"主动性"编程能力得益于这一过程。例如，Gemini 2.5 Pro Experimental 可以通过单个提示生成一个完整的可运行视频游戏。我们已经测试过这个功能，在公开版本中确实可用。

Google 对 Gemini 2.5 Pro 做出了诸多描述：更智能、更懂上下文、会思考—但很难量化生成式 AI 机器人的提升程度。不过，有一些明显的技术优势。Gemini 2.5 Pro 具有 100 万 token 的上下文窗口，这对 Gemini 大模型来说很常见，但相比 OpenAI GPT 或 Anthropic Claude 等竞争模型要大得多。你可以在单个提示中向 Gemini 2.5 Pro 输入多本很长的书，输出最多可达 64,000 个 token。这与 Flash 2.0 相同，但与其他 LLM 相比仍然是相当大的 token 数量。

当然，Google 已经对 Gemini 2.5 Experimental 进行了一系列基准测试，结果略高于其他 AI 系统。例如，在衡量 AI 回答科学和数学复杂问题能力的 GPQA 和 AIME 2025 测试中，它略胜于 OpenAI 的 o3-mini。在由领域专家策划的 3,000 个问题组成的"人类最后考试"基准测试中，它也创造了新纪录，Google 新 AI 的得分为 18.8%，而 OpenAI 为 14%。

这些试图客观衡量 AI 能力的方法效果如何还不清楚。有时，主观评估可能更有帮助——可以称之为"氛围评分"。Google 的新 AI 已经位居 LMSYS Chatbot 竞技场排行榜榜首，这是一个值得注意的成就。这表明用户普遍更喜欢 Gemini 2.5 Pro Experimental 的输出，而不是 OpenAI o3-mini、Grok、DeepSeek 等产品的输出。

即时 AI 升级

在使用 Gemini 2.5 Pro Experimental 时，我们也感受到了良好的体验。我们向 Gemini 2.5 提出了一些复杂的任务——这些任务经常让 2.0 模型感到困惑——升级后的 AI 处理得更好。编程、数学和科学问题的表现也比之前版本的 Gemini 更好。

Google 的新专业模型速度也非常快。它仍然像其他模型一样逐个输出 token，在"推理"过程中得出答案，但整体感觉比最新的 OpenAI 和 Anthropic 模型都要快。Google 拥有大量 AI 计算资源，这里显然得到了很好的利用。这也解释了为什么像 Gemini 2.5 Pro Experimental 这样的 Gemini 模型具有如此大的上下文窗口——在这种情况下，大约是 o3-mini 输入限制的五倍。而这仅仅是开始，Google 表示上下文窗口很快将增加到 200 万个 token。

几个月前发布时，Google 的 2.0 Pro 模型看起来相当令人印象深刻，但那个 AI 已经成为过去。Google 表示，Gemini 2.5 Pro 是 2.0 的直接替代品，拥有 Gemini Advanced 订阅 (每月 20 美元) 的用户都可以在 Google 的各种产品中使用它。新模型现在已在移动应用程序和网页上可用，也可以在 Google 的 AI Studio 中使用。它很快也将在 Vertex AI 中推出。

Google 尚未公布 Gemini 2.5 Pro Experimental 的 API 定价，但目前你能用它做的事情也不多。Google 设置了与旧实验模型相同的每日 50 条消息限制，目前是免费的。不过这种情况将会改变。Google 的 Logan Kilpatrick 在 X (前 Twitter) 上表示，2.5 Pro Experimental 将是第一个具有更高 API 限制和定价的实验模型。具体细节将在稍后公布。

来源：Arstechnica

0赞

好文章，需要你的鼓励

Gemini 2.5 Pro 问世：提供更强大的性能和更出色的体验

来源：Arstechnica

2025

03/27

10:14

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

Red Hat 简化 AI 应用训练和推理的数据访问流程

Gemini 2.5 Pro 问世：提供更强大的性能和更出色的体验

OpenAI 推出 GPT-4o 原生图像生成功能，效果令用户惊叹

Microsoft 为 Copilot 添加 AI 驱动的深度研究工具

我们真的需要通用人工智能吗？

AI 浪潮的源头代码现已开放下载

什么是 AI 工厂，为什么 Nvidia 押注它？

Nvidia GTC 2025：存储厂商搭乘 Nvidia 快车

一个新的、具有挑战性的 AGI 测试让大多数 AI 模型难以应对

揭穿 AGI 终将成为"一个大脑"的 AI 迷思

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: