终于,我们迎来了一个真正让人信赖的 AI 模型:LegoGPT 接受文本提示,输出一个物理上稳定的设计。
然而,在我们激动得迫不及待要求它设计一个 LEGO(R) Sistine Chapel 之前,需要注意的是,该工具只能生成适用于 20 x 20 x 20 网格内的设计,并仅使用八种基本积木类型 (1 x 1, 1 x 2, 1 x 4, 1 x 6, 1 x 8, 2 x 2, 2 x 4, 和 2 x 6)。这里没有所谓 “nice part usage” 。
来自 Pun et al 的论文中的 Lego-lization 示例图片:第一张图的输入提示为 "Table featuring a flat rectangular surface over four evenly spaced legs",第二张图的提示为 "Compact sofa with a geometric design" —— 点击放大查看。
你得到的是一个能够根据文本提示,提出一个既可以用 Lego 积木搭建且关键时刻保持物理稳定的设计的模型。
此项来自卡内基梅隆大学的研究 [PDF] 的成果,由 Ava Pun, Kangle Deng, Ruixuan Liu, Deva Ramanan, Changliu Liu 和 Jun-Yan Zhu 共同完成。
该系统的工作原理是:首先根据输入的提示生成一个 ShapeNetCore 网格模型,然后将其体素化到 20 x 20 x 20 的网格上,接着通过 “Legolization” 确定积木的布局。
团队解释道:“我们通过随机化积木布局,同时保留整体形状,为每个形状增加了多种结构变化。” 对每种变化都进行了稳定性分析,以剔除可能会散架的设计。
研究员 Ava Pun 对 The Register 表示:“我们憧憬一个制作物品变得极为个性化的未来!想象一下,你只需输入你所需的内容,或者向我们展示一张椅子的图片,然后——砰的一声,我们就可以在一两周内制作该产品并将其邮寄给你。”
“不幸的是,现今的生成式 AI 无法实现这一目标。你可以生成一张酷炫的椅子图片或视频,但模型并不知道现实世界中物品的制作方式,例如,是什么使物品稳定,以及各部分如何组合在一起。”
“为了解决这个问题,我们将物理定律和组装约束融入了诸如大语言模型 (LLM) 之类的生成式模型,从而使我们能够创建在现实世界中可运作的物体。我们在积木组装领域探索了这一目标,因为这种介质普及度高,且在不同实验室中都能重复获得相同结果。我们相信,我们的方法也可以应用于其他制造任务。例如,具有特定人体工学需求的用户可以利用它,通过预定义的零件集来设计定制家具。”
尽管这种雄心值得称赞,而且我们已见过足够多的 AI 生成图像,知道现实世界的物理特性往往缺失,但从一个看似童年 Lego 积木盒子中的作品跃迁到根据文本提示就能寄送成品,仍存在巨大差距。
Pun 也承认,要让模型看起来令人印象深刻而非仅仅是粗糙的块状近似,还需要“更多的精细化和人类创造力”。他表示:“我们认为这将对激发新想法和快速草拟初步设计非常有用。对创作者而言,它可以成为一个很棒的工具,用于头脑风暴和在早期阶段探索各种不同的创意。”
对于头脑风暴而言,它无疑是一个很棒的工具,而这是当前 AI 擅长的领域。然而,由于其有限的零件库和网格尺寸,这个初始版本更多地展示了可能实现的范例。Pun 说:“在未来的工作中,我们计划扩展积木库,涵盖更多种尺寸和类型的积木。”
“我们目前的系统仍然相当有限,因为它仅支持 20 x 20 x 20 尺寸、20 种对象类别以及简单的积木类型。但我们正在努力扩展系统的能力,请大家关注后续进展。”
我们询问了 Lego 对这项研究的看法,一位发言人表示:“我们目前无法对此发表评论。”
好文章,需要你的鼓励
这期是技术加情怀了。极少数人基于热情和对卓越的执念,构建了数十亿人每天依赖但普通人从不知晓的基础设施。
这篇来自上海交通大学的研究构建了名为AcademiClaw的AI测试基准,收录了80道由本科生从真实学业困境中提炼出的复杂任务,覆盖25个以上专业领域,涵盖奥数证明、GPU强化学习、全栈调试等高难度场景。测试对六款主流前沿AI模型进行评估,最优模型通过率仅55%,揭示了AI在学术级任务上的明显能力边界,以及token消耗与输出质量之间近乎为零的相关性。
Antigravity A1无人机推出"大春季更新",新增AI智能剪辑、语音助手、延时摄影模式及升级版全向避障系统。用户可通过语音命令控制Sky Genie、深度追踪等核心功能,虚拟驾驶舱支持第三人称视角飞行。随着产品进入墨西哥市场,Antigravity全球覆盖已近60个国家,持续推动无人机向更智能、更易用方向发展。
Meta AI安全团队于2026年5月发布了代码世界模型(CWM)的预发布安全评估报告(arXiv:2605.00932v1)。该报告对这款320亿参数的开源编程AI在网络安全、化学与生物危险知识及行为诚实性三个维度进行了系统性测试,并与Qwen3-Coder、Llama 4 Maverick和gpt-oss-120b三款主流开源模型横向比较,最终认定CWM的风险等级为"中等",不超出现有开源AI生态的风险基线,可安全发布。