周四,AI平台Clarifai宣布推出新的推理引擎,该公司声称这将使AI模型运行速度提高一倍,成本降低40%。该系统设计为适应各种模型和云主机,采用多种优化技术从相同硬件中获得更多推理能力。
"这包含各种不同类型的优化,从CUDA内核到高级推测解码技术,"首席执行官Matthew Zeiler说道。"基本上,你可以从相同的显卡中获得更多性能。"
第三方公司Artificial Analysis进行的一系列基准测试验证了这些结果,在吞吐量和延迟方面都创下了行业最佳记录。
该过程专门针对推理进行优化,即运行已训练AI模型的计算需求。随着智能体和推理模型的兴起,这种计算负载变得特别密集,因为这些模型需要多个步骤来响应单个命令。
Clarifai最初作为计算机视觉服务推出,随着AI热潮大幅增加对GPU和容纳它们的数据中心的需求,该公司越来越专注于计算编排。该公司于12月在AWS re:Invent大会上首次宣布其计算平台,但新的推理引擎是首个专门为多步骤智能体模型定制的产品。
该产品推出正值AI基础设施面临巨大压力,这催生了一系列数十亿美元的交易。OpenAI已制定计划,可能投资高达1万亿美元用于新数据中心建设,预测对计算能力的未来需求几乎是无限的。但是,尽管硬件建设非常密集,Clarifai的首席执行官认为在优化现有基础设施方面还有更多工作要做。
"有一些软件技巧可以让像这样的优秀模型走得更远,比如Clarifai推理引擎,"Zeiler说,"但也有算法改进可以帮助减少对千兆瓦数据中心的需求。我认为我们还没有达到算法创新的终点。"
Q&A
Q1:Clarifai推理引擎有什么作用?
A:Clarifai推理引擎是一个新的AI优化系统,能够使AI模型运行速度提高一倍,同时将成本降低40%。它通过多种优化技术,包括CUDA内核和高级推测解码技术,让相同的硬件获得更强的推理能力。
Q2:这个推理引擎主要解决什么问题?
A:该引擎主要针对AI推理过程进行优化,特别是智能体和推理模型的计算需求。这些模型需要多个步骤响应单个命令,计算负载特别密集,推理引擎能够提高这类复杂模型的运行效率。
Q3:Clarifai为什么要开发这个推理引擎?
A:随着AI热潮带来的巨大计算需求和基础设施压力,以及OpenAI等公司计划投资万亿美元建设数据中心,Clarifai认为通过软件优化现有基础设施比单纯扩大硬件建设更有效,可以减少对大型数据中心的依赖。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。