Cirrascale Cloud Services近日宣布,将通过谷歌分布式云(Google Distributed Cloud)平台,为企业提供本地化部署的AI模型服务。此举主要面向那些希望在自有防火墙内使用先进AI能力、同时保障数据安全的企业客户。
该公司表示,企业和公共部门机构将能够在本地环境或Cirrascale数据中心中运行Gemini模型,支持联网部署或完全物理隔离的气隙(air-gapped)部署方式,以满足数据主权和合规监管的要求。
Cirrascale指出,这一方案将其推理平台的能力延伸至谷歌分布式云上的Gemini模型,重点面向政府、国防、金融、医疗健康和高等教育等行业。
在硬件层面,Cirrascale采用由戴尔制造、搭载英特尔和英伟达CPU及GPU的服务器设备来运行本地Gemini模型,而非使用谷歌自研的张量处理单元(TPU)。其部署方式是在戴尔硬件上安装Gemini模型和谷歌分布式云软件,并以服务形式交付给客户。
Cirrascale首席执行官Dave Driggers表示,客户获得的性能虽不及TPU,但已完全满足实际使用需求。他说:"从完整技术栈的角度来看,英伟达之外真正能提供处理器、网络及软件全栈整合方案的平台,其实屈指可数。"
Cirrascale表示,这一部署模式专为数据驻留规定严格或对低延迟有高要求的客户设计,通过将计算资源部署在数据存储和处理的本地位置,有效降低传输延迟。谷歌分布式云支持在客户自主管控的环境中部署,包括完全断网的离线安装方式,这也是部分政府机构和关键基础设施用户的核心需求。
Driggers强调,模型安全是这一方案的重中之重。"这些模型极具价值,必须在可信、安全的环境中交付。谷歌最看重的就是模型本身的安全,因此必须以机密计算的方式进行部署。"他还介绍,模型不存储在硬盘上,而是驻留在内存中。一旦检测到任何入侵行为,系统会立即自动关机,内存中的模型随即消失,从根本上防止模型被窃取。
在服务内容方面,Cirrascale将作为其推理平台的一部分,为客户提供运行大规模Gemini推理所需的硬件配置、性能调优和持续技术支持。该服务面向希望在不重建现有基础设施的前提下构建生产环境的客户,提供经过优化的Gemini推理系统及持续运营支持。
Driggers表示:"模型属于谷歌,我们的核心价值在于作为可信合作伙伴,将模型安全交付给客户。这是我们'推理即服务'产品的重要组成部分。我们在模型之上构建了一层软件,让客户可以灵活定制使用方式,包括设置用户队列和用量限制。"
这一机制还支持Token经济(tokenomics)的精细化管理,例如为普通知识工作者和需要快速完成任务的高级程序员设置不同的Token调用频率。
此外,当客户业务分布于多个区域时,该服务同样支持Gemini的跨区域分发,并由Cirrascale负责为终端用户提供负载均衡。
目前该服务已进入预览阶段,计划于今年6月底至7月初正式面向公众开放。
Q&A
Q1:Cirrascale的本地化Gemini部署服务和直接使用谷歌云有什么区别?
A:Cirrascale的本地化部署方案允许企业将Gemini模型运行在自己的数据中心或完全断网的气隙环境中,数据不必离开企业防火墙,适合对数据主权和合规有严格要求的行业。相比之下,直接使用谷歌云需要将数据传输到谷歌的基础设施,这对政府、国防、金融等敏感行业来说存在一定限制。
Q2:Cirrascale的Gemini本地部署方案如何保障模型安全?
A:Cirrascale采用机密计算方式部署Gemini模型,模型不存储在硬盘上,而是直接驻留在内存中。一旦系统检测到任何入侵或异常行为,设备会立即自动关机,内存中的模型数据随之消失,无法被窃取。这种机制从硬件层面为模型提供了物理级别的安全保障。
Q3:Cirrascale的推理服务支持哪些行业,何时可以正式使用?
A:该服务主要面向政府、国防、金融、医疗健康和高等教育等对数据安全和合规要求较高的行业。目前服务已进入预览阶段,计划于2025年6月底至7月初正式对外开放。服务支持多区域分发和负载均衡,企业无需重建现有基础设施即可接入使用。
好文章,需要你的鼓励
购买笔记本电脑时,用户现在需要了解Copilot+ PC、NPU和本地AI处理等新概念。搭载专用神经处理单元(NPU)的Copilot+ PC能提供至少40 TOPS的AI算力,支持实时字幕翻译、视频通话优化、AI图像编辑等功能,同时提升续航表现。戴尔最新产品线涵盖多种选择:Dell 14 Plus适合学生和通勤族,Dell 16 Plus适合多任务办公用户,XPS 14面向轻度创作者,XPS 16则以31小时超长续航和3.6磅轻薄机身成为内容创作者的旗舰之选。
上交大与爱丁堡大学提出InfoKV,将信息熵与注意力权重结合用于KV缓存压缩,让大模型在仅保留12.5%缓存的条件下实现接近甚至超越完整缓存的长推理性能。
圣安德鲁斯大学博士Henry Legg在《自然》杂志发表同行评审论文,对微软拓扑间隙协议(TGP)框架提出质疑,认为该框架在推断Majorana粒子量子态存在方面存在缺陷,且实验数据分析结论可能有误。微软此前宣称将于2029年实现可扩展量子计算机,并推出Majorana 2芯片。对此,微软坚持立场,表示已发表正式反驳并获《自然》收录,对研发路线图充满信心。
强化学习训练AI时悄悄留下的"进展优势"信号,可作为免费的步骤级评分器,无需额外训练,在多个智能体任务上超越专用奖励模型。