微软认为 AI 可以加速将核聚变发展为一种实用的能源,而这反过来又可能加快解决如何为 AI 提供动力的问题。
在发电领域,核聚变技术与量子计算类似,目前仅存在于理论和实验室试验中,尚未在实际规模上应用。试验反应器仅能短暂地产生超过所消耗能量的反应。
爱好者们相信,这项技术将带来取之不尽的清洁能源,对微软而言,这一前景尤其令人期待,因为微软正在开发对能耗有着极大需求的 AI 产品。
因此,微软研究院与多位核聚变领域的知名专家看到了借助机器学习(现已统称为 AI)推进技术前沿的机会。
微软研究院的三位专家 Kenji Takeda、Shruti Rajurkar 和 Ade Famoti 在周三发布的一篇文章中写道:“追求核聚变作为一种无限且清洁的能源来源,一直是人类最雄心勃勃的科学目标之一。尽管可扩展的聚变能源仍需数年时间才能实现,但研究人员现在正探索如何利用 AI 加速聚变研究,并更早将这种能源投入电网。”
这种探索的一部分工作已于今年三月在微软研究院首届聚变峰会上展开,该峰会汇聚了希望借助 AI 加速聚变研究的科学家们——巧合的是,微软正斥资数十亿美元押注这一技术。
微软研究加速器部门的企业副总裁兼常务董事 Ashley Llorens 在活动开幕时表示,若能通过计算与 AI 应用推动可持续发展,将是一件多么宏大的事情。
这种设想显得尤为必要,因为目前的 AI 并非可持续发展。正如联合国环境规划署去年所指出的:“日益增多的数据中心用以容纳 AI 服务器,这些数据中心产生电子废弃物;它们大量消耗水资源,而许多地区的水资源已日益匮乏;它们依赖关键矿物和稀有元素,而这些资源往往以不可持续的方式开采;并且它们消耗巨量电力,促使温室气体排放,从而加剧全球变暖。”
微软目前应对 AI 环境影响的举措包括支付碳补偿费用、获取清洁能源,以及通过持续的硬件与软件优化工作,使其 AI 工作负载和数据中心更加高效。假如核聚变的实现能被进一步加速,这也许能在一定程度上抵消其业务造成的环境影响,前提是未来十年左右的排放不会使问题恶化到无法修复的地步。
普林斯顿等离子体物理实验室实验室主任、前英国原子能管理局首席执行官 Steven Cowley 爵士在主题演讲中指出,为了弄清 AI 是否能成为“找出真正以消费者愿付电价提供电力的最佳聚变配置的关键因素”,还需要更多研究。
做好等待的准备
无论是 AI 爱好者还是核聚变支持者,都需要耐心等待,因为毫无疑问,试验聚变能源发电厂在启动前至少还需要十年甚至更长时间。
美国国家科学院、工程院及医学院认为,公私部门的投资有望在 2035 至 2040 年间交付一座试点发电厂。这一时间框架与正在法国建设、但已多次延误的国际聚变试验堆(ITER)计划的目标启用日期相重叠。
乐观的一面是,机器学习目前已被应用于药物研发,证明其有能力协助复杂的研究任务。
微软组织的研究人员希望,通过在材料发现和偏微分方程等研究挑战中应用 AI,能够揭示实现商业化聚变能的道路。
Cowley 表示,其所在实验室已与微软签署谅解备忘录,计划展开合作,他认为 AI 有潜力缩短实现功能性聚变所需的时间,并为70年的反复试验提供一种替代途径。
他说:“聚变是一项我们从未尝试过的技术,利用计算和 AI 来找到一条可靠的实现之路是前进的必经之路——毕竟每一次试验都可能耗资几十亿美元。认为我们可以通过一遍又一遍的试错法来实现聚变,未免有些愚蠢。”
Clippy 登场:“我看到你正在构建聚变反应堆,需要帮忙吗?”
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。