Midjourney、DALLE 3、SD3等模型的出现,使得文生图像赛道实现了快速发展。但这些模型的参数非常大,在推理、生成的过程中占用了大量内存,极大限制了使用场景和设备。
为了解决这一难题,字节跳动的研究人员发布了创新的量化方法,不需要访问任何实际的图像数据,仅依赖模型自身的自监督信号即可。研究人员在著名开源文生图像模型FLUX进行了实验。结果显示,成功将FLUX的模型量化到1.58位权重,仅用{-1, 0, +1}三种值就能表示而不是更高精度的浮点数。
尽管模型被量化到如此低的位数,但在生成 1024 x 1024 分辨率图像时,性能仍与未量化的模型基本一致。为了支持1.58位的运算,还开发了一个专用的计算内核,存储减少了 7.7 倍,推理内存减少了5.1倍,极大降低了对存储、内存的需求。

先为大家简单介绍一下什么是量化技术。量化是一种模型压缩技术,主要通过减少模型权重的精度来降低模型的大小和计算需求。在传统的深度学习模型中,权重通常以32 位浮点数存储,这占用了大量的内存空间。
量化技术通过将这些权重映射到更少的位表示,比如8 位或更低,从而显著减少了模型的存储需求。量化还可以减少模型在推理时的计算量,因为整数运算比浮点运算更快、更高效。
在1.58-位FLUX的研究中,量化的应用达到了一个新的巅峰,研究人员没使用常见的8 位或更低的精度,而是将FLUX模型中的权重量化到了1.58 位,仅用三个数值就能表示。虽然高性能量化方式极大地压缩了模型的大小,但也有一个很大难题,如何在低精度下保持模型的性能。

为了实现这一目标,研究团队采用了一种后训练量化(PTQ)的方法。传统的 QAT 方法通常需要在模型训练过程中引入额外的量化操作,并对模型进行微调。这一过程往往涉及到复杂的训练机制调整和大量额外的计算资源投入。模型需要在训练过程中不断适应量化带来的精度损失,通过反向传播等技术手段来调整模型参数,以尽量减少量化对模型性能的影响。
而PTQ无需在训练过程中对模型进行繁琐的微调操作,直接聚焦于预训练好的模型进行量化处理,可以充分利用已经训练完成的 FLUX.1 - dev 模型所包含的丰富训练数据和强大能力,避免了重新训练所带来的巨大计算开销和时间消耗。
为了进一步确保 1.58 位 FLUX模型在推理过程中的高效性,研究团队在 PTQ 方法的基础上,还开发了专门针对 1.58 位操作优化的自定义内核。这个内核在模型推理过程中发挥着至关重要的作用。通过优化数据的存储结构和访问模式,使得模型在运行时能够以更低的内存占用实现高效计算。

在不同类型的 GPU 上进行测试时,1.58 位FLUX 借助该自定义内核实现了推理内存使用量的大幅减少,减少倍数超过 5.1 倍。在推理过程中,模型能够更加有效地利用内存资源,降低了内存溢出的风险,提高了系统的整体稳定性和运行效率。
此外,自定义内核还通过优化计算流程,减少了不必要的计算步骤和数据传输,显著提高了模型的推理速度,降低了推理延迟。例如,在处理复杂图像生成任务时,1.58 位 FLUX 能够更快地响应用户请求,生成高质量的图像结果提供更好的使用体验。
在性能评估方面,研究人员在GenEval数据集和T2I CompBench验证分割上评估了FLUX和1.58-位 FLUX。评估方法遵循官方的图像生成流程,生成的图像分辨率为1024×1024。结果显示,1.58 位 FLUX在多个指标上与FLUX相当,这证明了量化后的模型在保持性能方面的优势。

在效率方面,1.58-位 FLUX在模型存储和推理内存方面都显示出显著的效率提升。例如,与FLUX相比,1.58-位 FLUX将检查点存储减少了7.7倍。这一成果是通过将1.58位权重存储为2位有符号整数实现的,从而将它们从16位精度压缩。
在推理延迟方面,1.58-位 FLUX在不同GPU上的表现也有所提升。尤其是在性能较低但适合部署的GPU上,例如,L20和A10,1.58-位 FLUX的推理延迟得到了显著改善。
研究人员表示,这个量化方法很快就会开源,帮助更多受算力、内存限制的人员来实现更高效的模型推理。
即将开源:https://github.com/Chenglin-Yang/1.58bit.flux
好文章,需要你的鼓励
Helios Towers供应链总监Dawn McCarroll在采访中分享了公司的数字化转型经验。作为一家在非洲和中东地区运营近15000个移动通信塔站的公司,Helios正通过SAP S/4Hana系统升级、AI技术应用和精益六西格玛方法论来优化供应链管理。McCarroll特别强调了公司Impact 2030战略中的数字包容性目标,计划在未来五年内培训60%的合作伙伴员工掌握精益六西格玛原则,并利用大数据和AI技术实现端到端的供应链集成。
UNC北卡教堂山分校研究团队开发了Agent0-VL,一个能自我进化的视觉语言AI系统。该系统创新性地采用求解者-验证者双重架构,通过工具集成推理实现零外部监督的持续自我改进。在几何问题和科学分析任务上性能提升12.5%,甚至超越GPT-4o等商业模型。这项突破性研究为AI自主学习开辟了新路径。
威胁行为者在npm注册表上传8个恶意包,伪装成n8n工作流自动化平台的集成组件来窃取开发者OAuth凭据。其中一个名为"n8n-nodes-hfgjf-irtuinvcm-lasdqewriit"的包模仿Google Ads集成,诱导用户在看似合法的表单中关联广告账户,然后将凭据传输到攻击者控制的服务器。这种攻击利用了工作流自动化平台作为集中凭据库的特点,能够获取多个服务的OAuth令牌和API密钥。
香港科技大学团队开发的MedSAM-3突破了传统医学图像分析的局限,首次实现了基于自然语言概念的精准医学图像分割。该系统能够仅通过"肺部肿瘤"等简单文字描述就准确识别医学图像中的目标区域,配合智能代理框架可处理复杂临床指令并自动优化结果,在多种医学成像模态上表现出色,为医学AI向概念化智能发展开辟新路径。