在整个 AI 领域,各个团队正通过改变模型运作方式来释放新的功能。这其中包括输入压缩、改变大语言模型的内存需求、重新定义上下文窗口,以及创建注意力机制来帮助神经网络聚焦于所需之处。
例如,有一种叫做"量化"的过程,通过使用不同的输入类型来帮助模型获得更好的整体效果——这在某种程度上类似于早期主要是监督系统的机器学习程序中的维度概念。
从 MIT 专家的最新研究中我们可以看到,4 位量化过程在生成式 AI 扩散模型中非常有用。具体来说,Muyang Li 及其团队开发了一个用于扩散的 "SVDquant" 4 位量化系统,该系统比传统模型运行速度快三倍,同时还能提供更好的图像质量和兼容性。
扩散模型如何工作
在深入探讨研究团队在量化系统方面的发现之前,让我们先了解扩散模型的一般工作原理。
我在 MIT CSAIL 实验室的同事 Daniela Rus 曾对此做出很好的解释。她指出,扩散模型会获取现有图像,将其分解,然后基于先前的训练输入数据重建出新图像。因此,最终会创建出一张全新的图像,但它包含了用户在输入提示时所期望的所有特征。提示越详细,输出就越精确。如果你使用过这些系统,就会知道你还可以通过后续提示来调整或修改图像,使其更符合你的期望。
你可以将其类比为一位技艺精湛的画家根据要求作画。你告诉画家要画什么,他们就会运用自己的知识库来描绘特定事物的样子。虽然图像是原创和独特的,但它是基于艺术家所学习的知识。同样,扩散模型的结果也是基于它所学习的内容。
提升扩散效率
通过将 16 位模型转换为 4 位模型,研究人员声称可以节省约 3.5 倍的内存,并将延迟减少 8.7 倍。
一些已发表的资源展示了如何在较少资源的情况下实现高保真度和良好的构图。
Li 在系统说明中写道:"量化为减小模型大小和加速计算提供了强有力的方法。通过将参数和激活压缩为低位表示,它大大降低了内存和处理需求。随着摩尔定律放缓,硬件供应商正在转向低精度推理。NVIDIA Blackwell 中的 4 位浮点 (FP4) 精度就是这一趋势的典范。"
这是一个很好的例证,因为 Nvidia Blackwell 几乎无所不能。查看一些使用最先进 GPU 和现代硬件的企业程序,你会经常听到 "Blackwell" 这个名字。
因此,正如作者指出的,硬件供应商正在转向低精度推理,这是一个极好的例子。
量化的挑战
为了克服 4 位量化模型的一些限制,专家们建议了一些最佳实践。例如,权重和激活必须匹配,异常值必须重新分配,必须达到某种平衡。
但是一旦实现了这些,你就能获得那些将在未来转化为大规模企业应用的节省。
期待这些创新很快就会在你所在的商业领域中得到应用。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。