Cirrascale Cloud Services近日宣布,将通过谷歌分布式云(Google Distributed Cloud)平台,为企业提供本地化部署的AI模型服务。此举主要面向那些希望在自有防火墙内使用先进AI能力、同时保障数据安全的企业客户。
该公司表示,企业和公共部门机构将能够在本地环境或Cirrascale数据中心中运行Gemini模型,支持联网部署或完全物理隔离的气隙(air-gapped)部署方式,以满足数据主权和合规监管的要求。
Cirrascale指出,这一方案将其推理平台的能力延伸至谷歌分布式云上的Gemini模型,重点面向政府、国防、金融、医疗健康和高等教育等行业。
在硬件层面,Cirrascale采用由戴尔制造、搭载英特尔和英伟达CPU及GPU的服务器设备来运行本地Gemini模型,而非使用谷歌自研的张量处理单元(TPU)。其部署方式是在戴尔硬件上安装Gemini模型和谷歌分布式云软件,并以服务形式交付给客户。
Cirrascale首席执行官Dave Driggers表示,客户获得的性能虽不及TPU,但已完全满足实际使用需求。他说:"从完整技术栈的角度来看,英伟达之外真正能提供处理器、网络及软件全栈整合方案的平台,其实屈指可数。"
Cirrascale表示,这一部署模式专为数据驻留规定严格或对低延迟有高要求的客户设计,通过将计算资源部署在数据存储和处理的本地位置,有效降低传输延迟。谷歌分布式云支持在客户自主管控的环境中部署,包括完全断网的离线安装方式,这也是部分政府机构和关键基础设施用户的核心需求。
Driggers强调,模型安全是这一方案的重中之重。"这些模型极具价值,必须在可信、安全的环境中交付。谷歌最看重的就是模型本身的安全,因此必须以机密计算的方式进行部署。"他还介绍,模型不存储在硬盘上,而是驻留在内存中。一旦检测到任何入侵行为,系统会立即自动关机,内存中的模型随即消失,从根本上防止模型被窃取。
在服务内容方面,Cirrascale将作为其推理平台的一部分,为客户提供运行大规模Gemini推理所需的硬件配置、性能调优和持续技术支持。该服务面向希望在不重建现有基础设施的前提下构建生产环境的客户,提供经过优化的Gemini推理系统及持续运营支持。
Driggers表示:"模型属于谷歌,我们的核心价值在于作为可信合作伙伴,将模型安全交付给客户。这是我们'推理即服务'产品的重要组成部分。我们在模型之上构建了一层软件,让客户可以灵活定制使用方式,包括设置用户队列和用量限制。"
这一机制还支持Token经济(tokenomics)的精细化管理,例如为普通知识工作者和需要快速完成任务的高级程序员设置不同的Token调用频率。
此外,当客户业务分布于多个区域时,该服务同样支持Gemini的跨区域分发,并由Cirrascale负责为终端用户提供负载均衡。
目前该服务已进入预览阶段,计划于今年6月底至7月初正式面向公众开放。
Q&A
Q1:Cirrascale的本地化Gemini部署服务和直接使用谷歌云有什么区别?
A:Cirrascale的本地化部署方案允许企业将Gemini模型运行在自己的数据中心或完全断网的气隙环境中,数据不必离开企业防火墙,适合对数据主权和合规有严格要求的行业。相比之下,直接使用谷歌云需要将数据传输到谷歌的基础设施,这对政府、国防、金融等敏感行业来说存在一定限制。
Q2:Cirrascale的Gemini本地部署方案如何保障模型安全?
A:Cirrascale采用机密计算方式部署Gemini模型,模型不存储在硬盘上,而是直接驻留在内存中。一旦系统检测到任何入侵或异常行为,设备会立即自动关机,内存中的模型数据随之消失,无法被窃取。这种机制从硬件层面为模型提供了物理级别的安全保障。
Q3:Cirrascale的推理服务支持哪些行业,何时可以正式使用?
A:该服务主要面向政府、国防、金融、医疗健康和高等教育等对数据安全和合规要求较高的行业。目前服务已进入预览阶段,计划于2025年6月底至7月初正式对外开放。服务支持多区域分发和负载均衡,企业无需重建现有基础设施即可接入使用。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。