Google LLC 今天宣布将扩展其 Gemini 人工智能模型系列,并增加现有模型的可用性。
首先,Google 在 Google AI Studio 和 Vertex AI(该公司的全托管机器学习开发平台)中全面开放了更新版的 Gemini 2.0 Flash。这是继公司在桌面和移动端的 Gemini 应用中向所有用户开放 2.0 Flash 之后的又一举措。
在实验性 Gemini 模型方面,Google 发布了 Gemini 2.0 Pro 的实验版本(该公司在编程和复杂提示方面表现最佳的旗舰模型),并宣布 2.0 Flash Thinking Experimental 正式发布。新的 2.0 Flash Thinking 模型是一个针对逻辑和推理进行优化的小型快速 AI 模型。
Google 还发布了一个全新的模型 Gemini 2.0 Flash-Lite,这是该公司最具成本效益的 AI 模型,目前处于公开预览阶段。
2.0 Pro 实验版 通过与开发者和高级用户分享 Gemini 2.0 的早期实验版本,Google 表示已收到关于其 AI 模型优势的宝贵反馈。随着 Gemini 2.0 Pro 实验版的发布,公司希望继续保持这一趋势。
Gemini 2.0 Pro 实验版具有 200 万个 token 的上下文窗口,可以处理大量文档和视频,或约 150 万个单词。它还可以调用 Google 搜索等工具并执行代码。
Gemini 2.0 Pro 是 Google 去年 2 月推出的前代旗舰模型 Gemini 1.5 Pro 的继任者。
2.0 Flash Thinking 实验版 为了打造一个通过优化推理能力来进行"深度思考"的模型,Google 于去年 12 月发布了 2.0 Flash Thinking Experimental。中国 AI 初创公司 DeepSeek 的开源 R1 推理模型同样具有深度思考能力,但获得了更多媒体关注。
Google 在 2.0 Flash 的速度和性能基础上构建了这个新的实验模型,并训练它将提示分解为一系列步骤,使其本质上能够完成推理过程。
Google Gemini 应用产品管理总监 Patrick Kane 在公告中表示:"2.0 Flash Thinking Experimental 会展示其思考过程,让你能够了解它为什么会以某种方式回应,它的假设是什么,以及追踪模型的推理路线。"
公司还表示,Flash Thinking 将推出一个可以与 YouTube、搜索和 Google Maps 等应用交互的版本。这将使推理模型能够利用其固有的推理能力,充当有用的 AI 助手。
新的 2.0 Flash Thinking Experimental 和 2.0 Pro Experimental 将于今天在 Gemini 网页和移动应用中推出。
2.0 Flash-Lite:小型高效模型 作为 Google Gemini 系列的最新模型,2.0 Flash-Lite 在保持 Flash 1.5 的速度和价格的同时,在大多数质量基准测试中都优于该模型。
与 Flash 2.0 一样,Flash-Lite 提供 100 万个 token 的上下文窗口和多模态输入。举例来说,Google 表示,新模型可以为大约 4 万张独特照片生成单行标题,在 Google AI Studio 的付费层级中花费不到一美元。
这种规模化的速度和效率,以及如此低的成本,特别受到营销和零售机构的青睐。对于营销人员来说,该模型可以帮助以低成本为客户生成定制电子邮件,而在零售领域,它可以为产品照片生成大量文字描述,而不会产生高额成本。
Gemini 2.0 Flash-Lite 今天开始在 Google AI Studio 和 Vertex AI 中进行公开预览。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。