生成式AI工具如DALL-E、Midjourney和Stable Diffusion能够创建逼真的图像,但这些工具消耗大量能源。现在两项研究发现,所谓的热力学计算可能以仅为传统方法百亿分之一的能耗生成图像。
许多AI图像生成器的核心是被称为扩散模型的机器学习算法。程序员向模型输入大量图像集,然后逐渐添加噪声,直到这些图像看起来像老式模拟电视的雪花屏。接着他们训练神经网络来逆转这个过程,使扩散模型能够根据提示生成全新的图像。
然而,添加噪声然后从静态中生成图像的AI数字计算过程非常耗能。加州劳伦斯伯克利国家实验室的工作科学家Stephen Whitelam表示,涉及热力学计算的新技术可能"以比当前数字硬件低得多的能耗"生成图像。
利用自然噪声
热力学计算采用物理电路,这些电路会响应噪声变化,比如环境中随机热波动引起的噪声,从而执行低能耗计算。例如,纽约初创公司Normal Computing的原型芯片由八个谐振器组成,通过特殊耦合器相互连接。程序员使用这些耦合器构建一种为他们想要研究的问题定制的计算器。然后他们激发谐振器,在谐振器耦合网络中引入噪声,执行计算。系统达到平衡后,程序员可以从谐振器的新配置中读取解决方案。
在1月10日发表在《自然通讯》上的文章中,Whitelam和同事揭示了创建神经网络热力学版本的可能性。这为通过热力学计算生成图像奠定了基础。
Whitelam的新策略将向热力学计算机提供一组图像。该技术随后通过让计算机组件之间的自然随机交互运行,直到连接这些组件的耦合自然达到平衡状态,从而使存储的图片降解。接下来,该策略将计算具有给定耦合状态的热力学计算机逆转衰减过程的概率。然后调整这些耦合的值以最大化该概率。
在1月20日发表在《物理评论快报》上的传统计算机模拟研究中,Whitelam发现这种训练过程可以让热力学计算机的设置生成手写数字图像。它可以在不使用耗能的数字神经网络或噪声生成伪随机数生成器的情况下完成这项任务。
"这项研究表明,制造硬件来执行某些类型的机器学习——这里指图像生成——的能耗可能比我们目前的做法低得多,"Whitelam说。
Whitelam提醒说,与数字神经网络相比,热力学计算机目前还很初级。"我们还不知道如何设计一台在图像生成方面能与DALL-E等相媲美的热力学计算机,"他说。"仍然需要解决如何构建硬件来实现这一点。"
尽管他计算出热力学计算机在能效方面可能比常规计算机有巨大优势,但"构建一台能够享受所有这些优势的热力学计算机将是具有挑战性的。近期的设计可能介于理想状态和当前数字功耗水平之间。"
Q&A
Q1:热力学计算是什么?它如何工作?
A:热力学计算采用物理电路,这些电路会响应环境中随机热波动等噪声变化来执行低能耗计算。它通过谐振器和耦合器构成的网络,利用自然噪声进行计算,系统达到平衡后可以读取计算结果。
Q2:热力学计算在AI图像生成方面有什么优势?
A:热力学计算可能以仅为传统方法百亿分之一的能耗生成图像。它能够在不使用耗能的数字神经网络或噪声生成伪随机数生成器的情况下完成图像生成任务,大幅降低能源消耗。
Q3:热力学计算技术目前面临哪些挑战?
A:与数字神经网络相比,热力学计算机目前还很初级,研究人员还不知道如何设计出在图像生成方面能与DALL-E等工具相媲美的热力学计算机。构建能够充分发挥能效优势的硬件仍然具有挑战性。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。