高通公司宣布了其进军AI数据中心市场的详细计划,发布了一对加速器产品和用于容纳它们的机架级系统,全部专注于推理工作负载。
该公司对其新推出的AI200和AI250"基于芯片的加速器卡"提供的技术细节有限,仅表示AI200每卡支持768GB的LPDDR内存,而AI250将提供"基于近内存计算的创新内存架构",代表"AI推理工作负载在效率和性能方面的代际飞跃,提供超过10倍的有效内存带宽和更低的功耗"。
高通将在预配置的机架中交付这些卡片,这些机架将使用"直接液体冷却以提高热效率,PCIe用于扩展,以太网用于横向扩展,机密计算用于安全AI工作负载,机架级功耗为160千瓦"。
今年5月,高通首席执行官克里斯蒂亚诺·阿蒙提出了一些神秘的声明,称公司只会以"独特且颠覆性的产品"进入AI数据中心市场,并将利用其构建CPU的专业知识来"思考关于高性能低功耗推理集群"。
然而,这家骁龙制造商的公告并未提及CPU。它确实表示其加速器建立在高通的"NPU技术领导地位"之上——这无疑是对其在笔记本电脑和移动设备处理器中内置的Hexagon品牌神经处理单元的致敬。
高通最新的Hexagon NPU被集成到骁龙8 Elite SoC中,包括12个标量加速器和8个矢量加速器,支持INT2、INT4、INT8、INT16、FP8、FP16精度。
高通公告中最有说服力的线索是,其新AI产品"为快速生成式AI推理提供机架级性能和卓越的内存容量,具有高性能每美元每瓦特"和"低总拥有成本"。
这种表述解决了AI运营商的三个痛点。
其一是为AI应用供电的能源成本。另一个是高能耗产生大量热量,意味着数据中心需要更多冷却基础设施——这也消耗能源并影响成本。
第三个是加速器可用的内存数量,这一因素决定了它们可以运行什么模型——或者在单个加速器中可以运行多少个模型。
高通表示其AI200装载的768GB内存舒适地超过了英伟达或AMD在其旗舰加速器中提供的容量。
因此,高通似乎在暗示其AI产品可以用更少的资源进行更多推理,随着AI工作负载采用的扩展,这种组合将吸引众多运营商。
这家骁龙制造商还宣布了其新设备的一个客户,即沙特AI公司Humain,该公司"计划从2026年开始使用200兆瓦的高通AI200和AI250机架解决方案,在沙特阿拉伯王国和全球提供高性能AI推理服务"。
但高通表示预计AI250要到2027年才能上市。因此,Humain的公告与其他消息一样,很难评估,因为它省略了关于高通究竟创造了什么以及是否能与其他加速器真正竞争的重要细节。
高通的公告中也没有提及主要的超大规模云服务商是否对其设备表达了兴趣,或者是否可以在本地部署运行。
然而,这一公告标志着高通在过去专注于CPU的尝试失败后重返数据中心市场。投资者显然喜欢这一新举措,该公司股价在周一上涨了11%。
Q&A
Q1:高通AI200和AI250加速器有什么主要特点?
A:AI200每卡支持768GB的LPDDR内存,而AI250采用基于近内存计算的创新内存架构,能提供超过10倍的有效内存带宽和更低功耗,专门针对AI推理工作负载设计。
Q2:高通的机架系统有什么特殊设计?
A:高通的机架系统采用直接液体冷却提高热效率,使用PCIe进行纵向扩展、以太网进行横向扩展,支持机密计算确保AI工作负载安全,机架级功耗为160千瓦。
Q3:高通AI产品何时能够商用部署?
A:AI200预计2026年开始部署,而AI250要到2027年才能上市。沙特AI公司Humain已宣布计划从2026年开始使用200兆瓦的高通机架解决方案。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。