Google发布了Gemini 3.5 Flash,这是一款专为支持其产品和企业平台中智能体工作流程而设计的新AI模型。该公司希望将生成式AI从聊天机器人式的交互推向更深层次的业务运营。
这款模型在年度Google I/O开发者大会上发布,可通过Gemini应用、Google搜索中的AI模式、Google Antigravity、Google AI Studio和Android Studio中的Gemini API、Gemini企业智能体平台以及Gemini Enterprise使用。
Google在博客文章中表示,Gemini 3.5 Flash专为软件开发、财务文档准备、客户入职、OCR、税务工作流程和数据诊断等任务而构建。
Google还试图将该模型定位为大型旗舰系统的更快替代方案。它将Gemini 3.5 Flash描述为迄今为止在智能体和编码任务方面最强大的模型,声称在Terminal-Bench 2.1、GDPval-AA和MCP Atlas等基准测试中优于Gemini 3.1 Pro。
该公司还表示,该模型在多模态理解方面处于领先地位,在CharXiv Reasoning上得分为84.2%。
Google补充说:"从每秒输出Token数来看,它比其他前沿模型快4倍。"
Google还表示,它与行业合作伙伴合作开发了Gemini 3.5模型系列,并补充说他们"看到了有意义的影响——从银行和金融科技公司自动化数周的工作流程,到数据科学团队在复杂数据环境中挖掘洞察。"
分析师表示,Gemini 3.5 Flash应该被视为Google推动构建可在监督下执行企业任务的AI智能体的一部分,而不仅仅是改进的聊天机器人。
Pareekh Consulting首席执行官Pareekh Jain表示:"Google在速度、成本和性能方面的改进很重要,因为许多AI试点项目在规模化时会因为太慢或太昂贵而失败。更快、更便宜的模型可以使AI智能体在编码、支持、分析和自动化等实际业务运营中变得实用。"
但根据Greyhound Research首席分析师Sanchit Vir Gogia的说法,首席信息官不应只关注模型成本,还应关注完成工作流程的成本,例如解决索赔异常、审查合同、分类服务事件或推动软件修复通过测试和审批。
Gogia说:"供应商基准测试能力,企业试点测试生存能力。"
Counterpoint Research研究副总裁Neil Shah表示,企业目标也在发生变化。Shah说:"企业目标已经从总结文档、回答基于提示的问题或基本代码生成,演变为将受监督的自主后台工作者直接部署到核心业务工作流程中。"
这引发了一个问题:Google能否使智能体AI足够可靠以用于生产环境,而不仅仅是运行更快或更便宜。
Gartner高级总监分析师Anushree Verma表示,随着AI智能体从被动助手转变为业务流程中的主动参与者,企业还需要对其运作方式进行更强有力的控制。
Verma说:"随着AI智能体在业务系统中被采用,企业面临一系列新挑战,例如,智能体被授权执行哪些操作以及在什么情况下执行。"
她说,风险不仅限于操作错误。跨多个系统运行的智能体可能会扩大攻击面,为攻击者创造新的入口点,并增加恶意提示或数据触发意外操作的可能性。
Verma补充说:"问责制、可审计性、可解释性也将成为关键问题,随着部署更多智能体,可观察性变得非常关键。随着智能体快速被采用,还有更多问题需要处理,这可能会造成智能体泛滥。"
Verma表示,解决这些风险需要IT、安全、合规和业务团队共同合作,并投资于为AI驱动的自动化构建的工具和流程。
Q&A
Q1:Gemini 3.5 Flash是什么?它有什么特点?
A:Gemini 3.5 Flash是Google推出的新AI模型,专为支持智能体工作流程设计。它的主要特点是速度快,每秒输出Token数比其他前沿模型快4倍,适用于软件开发、财务文档准备、客户入职、OCR、税务工作流程等企业任务,在智能体和编码任务方面表现出色。
Q2:企业在部署AI智能体时面临哪些挑战?
A:企业在部署AI智能体时面临多重挑战,包括智能体被授权执行哪些操作、在什么情况下执行等权限管理问题。此外,跨系统运行的智能体可能扩大攻击面,增加安全风险。问责制、可审计性、可解释性和可观察性也是关键问题,快速采用可能造成智能体泛滥。
Q3:Gemini 3.5 Flash相比其他模型有什么优势?
A:Gemini 3.5 Flash在多个方面具有优势。它在Terminal-Bench 2.1、GDPval-AA和MCP Atlas等基准测试中优于Gemini 3.1 Pro,在多模态理解方面处于领先地位,CharXiv Reasoning得分达84.2%。更重要的是,它的速度和成本优势使AI智能体在实际业务运营中更加实用。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。