终于,我们迎来了一个真正让人信赖的 AI 模型:LegoGPT 接受文本提示,输出一个物理上稳定的设计。
然而,在我们激动得迫不及待要求它设计一个 LEGO(R) Sistine Chapel 之前,需要注意的是,该工具只能生成适用于 20 x 20 x 20 网格内的设计,并仅使用八种基本积木类型 (1 x 1, 1 x 2, 1 x 4, 1 x 6, 1 x 8, 2 x 2, 2 x 4, 和 2 x 6)。这里没有所谓 “nice part usage” 。
来自 Pun et al 的论文中的 Lego-lization 示例图片:第一张图的输入提示为 "Table featuring a flat rectangular surface over four evenly spaced legs",第二张图的提示为 "Compact sofa with a geometric design" —— 点击放大查看。
你得到的是一个能够根据文本提示,提出一个既可以用 Lego 积木搭建且关键时刻保持物理稳定的设计的模型。
此项来自卡内基梅隆大学的研究 [PDF] 的成果,由 Ava Pun, Kangle Deng, Ruixuan Liu, Deva Ramanan, Changliu Liu 和 Jun-Yan Zhu 共同完成。
该系统的工作原理是:首先根据输入的提示生成一个 ShapeNetCore 网格模型,然后将其体素化到 20 x 20 x 20 的网格上,接着通过 “Legolization” 确定积木的布局。
团队解释道:“我们通过随机化积木布局,同时保留整体形状,为每个形状增加了多种结构变化。” 对每种变化都进行了稳定性分析,以剔除可能会散架的设计。
研究员 Ava Pun 对 The Register 表示:“我们憧憬一个制作物品变得极为个性化的未来!想象一下,你只需输入你所需的内容,或者向我们展示一张椅子的图片,然后——砰的一声,我们就可以在一两周内制作该产品并将其邮寄给你。”
“不幸的是,现今的生成式 AI 无法实现这一目标。你可以生成一张酷炫的椅子图片或视频,但模型并不知道现实世界中物品的制作方式,例如,是什么使物品稳定,以及各部分如何组合在一起。”
“为了解决这个问题,我们将物理定律和组装约束融入了诸如大语言模型 (LLM) 之类的生成式模型,从而使我们能够创建在现实世界中可运作的物体。我们在积木组装领域探索了这一目标,因为这种介质普及度高,且在不同实验室中都能重复获得相同结果。我们相信,我们的方法也可以应用于其他制造任务。例如,具有特定人体工学需求的用户可以利用它,通过预定义的零件集来设计定制家具。”
尽管这种雄心值得称赞,而且我们已见过足够多的 AI 生成图像,知道现实世界的物理特性往往缺失,但从一个看似童年 Lego 积木盒子中的作品跃迁到根据文本提示就能寄送成品,仍存在巨大差距。
Pun 也承认,要让模型看起来令人印象深刻而非仅仅是粗糙的块状近似,还需要“更多的精细化和人类创造力”。他表示:“我们认为这将对激发新想法和快速草拟初步设计非常有用。对创作者而言,它可以成为一个很棒的工具,用于头脑风暴和在早期阶段探索各种不同的创意。”
对于头脑风暴而言,它无疑是一个很棒的工具,而这是当前 AI 擅长的领域。然而,由于其有限的零件库和网格尺寸,这个初始版本更多地展示了可能实现的范例。Pun 说:“在未来的工作中,我们计划扩展积木库,涵盖更多种尺寸和类型的积木。”
“我们目前的系统仍然相当有限,因为它仅支持 20 x 20 x 20 尺寸、20 种对象类别以及简单的积木类型。但我们正在努力扩展系统的能力,请大家关注后续进展。”
我们询问了 Lego 对这项研究的看法,一位发言人表示:“我们目前无法对此发表评论。”
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。