新型 Lego 搭建 AI 创造出在现实中真正稳固的模型

卡内基梅隆大学推出LegoGPT，该AI依据文本提示生成稳固的乐高模型，通过逐块砖预测和物理验证确保结构可搭建，经机器人和人工测试均显示出高稳定性和扩展潜力。

在周四，卡内基·梅隆大学的研究人员发布了 LegoGPT，这是一种能根据文本提示创建物理上稳定的 Lego 结构的 AI 模型。该系统不仅能够设计出符合文本描述的 Lego 模型，而且确保这些模型可以在现实中逐块搭建，无论是由人手工搭建还是借助机器人协助完成。

“为实现这一目标，我们构建了一个大规模、物理结构稳定的 Lego 设计数据集及其相关说明，”研究人员在上传至 arXiv 的论文中写道，“并训练了一个自回归大语言模型，通过下一个 Token 预测来预测下一个需要添加的砖块。”

训练后的模型能够生成符合诸如“流线型、修长的船只”或“具有显著前格栅的经典风格汽车”之类文本提示的 Lego 设计。得到的设计风格简约，仅使用少量砖块类型构建出原始形状——但这些模型稳固耐立。正如 Ars Technica 的一名工作人员在看到这项研究后半开玩笑地说的那样，“它搭建 Lego 的方式仿佛回到了 1974 年。”

在题为《从文本生成物理稳定且可构建的 Lego 设计》的论文中，由 Ava Pun 领导的研究团队解释道，目前许多现有的 3D 生成模型侧重于制造具有详细几何形状的多样化对象，但这些数字设计往往无法在物理世界实现。“如果没有适当的支撑，设计的部分很可能会坍塌、漂浮或保持断裂状态，”他们写道。

与以往自主 Lego 建模的尝试不同，据称 LegoGPT 能够生成逐步说明资料，指导构建不会散架的 Lego 创作。项目网站上可以看到该系统的演示效果。

How LegoGPT works

为了构建 LegoGPT，卡内基·梅隆团队重新利用了大语言模型（LLM）背后的技术，类似于支持 ChatGPT 的那种技术，将应用场景从下一个单词预测转变为“下一块砖块预测”。为此，团队对来自 Meta 的一款遵循指令的大语言模型 LLaMA-3.2-1B-Instruct 进行了微调。

随后，研究团队将该砖块预测模型与一个独立的软件工具相结合，通过数学模型模拟重力和结构力，以验证物理稳定性。

在训练模型时，团队组建了一个名为 StableText2Lego 的新数据集，该数据集包含 47,000 多个稳定的 Lego 结构及其由另一 AI 模型 OpenAI 的 GPT-4o 生成的描述性说明。每个结构都经过物理分析，确保其能够在现实中构建成功。

LegoGPT 的工作原理是首先生成一序列精确放置的 Lego 砖块。对于序列中的每一砖块，系统都会确保其不会与已存在的砖块发生碰撞，且能适应构建空间。在完成设计后，系统利用前述数学模型来验证该设计能否稳固直立而不倒塌。

如果某些部分在现实中可能会坍塌，系统会定位出第一个不稳定的砖块，并进行回溯，移除该砖块及其之后的所有砖块，再尝试另一种方案。这种“物理感知回滚”方法对于团队的方案至关重要。没有该步骤，仅有 24% 的设计能够保持稳固，而使用完整系统后这一比例高达 98.8%。

研究人员还通过添加纹理和颜色选项扩展了系统的能力。例如，使用“金属紫色的电吉他”这样的外观提示，LegoGPT 可以生成一款电吉他模型，并将砖块指定为紫色。

Testing with robots and humans

为了证明设计在现实中的可行性，研究人员让机器人组装这些由 AI 创造的 Lego 模型。他们使用了带有力传感器的双机器人臂系统，根据 AI 生成的指令拾取并放置砖块。

人类测试者也亲手搭建了一些设计，证明了 AI 确实能够创造出切实可构建的模型。“我们的实验显示，LegoGPT 产生的 Lego 设计既稳定多样，又具美学吸引力，并且与输入的文本提示高度契合，”团队在论文中指出。

在与其他 3D 生成 AI 系统的对比测试中，LegoGPT 凭借其对结构完整性的关注脱颖而出。团队测试了包括 LLaMA-Mesh 在内的几种替代方案，发现其方法生成的稳定结构比例最高。

不过，当前版本仍存在一些局限性。LegoGPT 目前仅适用于 20×20×20 的构建空间，并仅使用八种标准砖块。“我们的方法目前仅支持一套常用的 Lego 砖块，”团队承认，“未来工作中，我们计划扩展砖块库，涵盖更多尺寸和类型的砖块，例如斜面砖和平板砖。”

研究人员还希望扩大训练数据集，涵盖比当前 21 类对象更多的类别。同时，其成果也对外开放——研究团队在项目网站和 GitHub 上发布了数据集、代码及模型。

来源：Arstechnica

0赞

好文章，需要你的鼓励

新型 Lego 搭建 AI 创造出在现实中真正稳固的模型

来源：Arstechnica

2025

05/12

09:59

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Google I/O 2025：期待什么？包括 Gemini 与 Android 16 的更新

Zencoder 推出 Zen Agents，开启软件开发团队协作 AI 新纪元

据报道，Meta 正在考虑使用 “超级感知” 技术打造智能眼镜

Google 推出 “隐式缓存” 降低最新 AI 模型访问成本

Startup Korl 推出多模态、多代理工具，实现跨系统定制化沟通

为什么 agentic AI 是下一波创新浪潮

Mistral AI发布Medium 3模型，低成本高性能

xMEMS 推出单片微型散热扇技术扩展至 AI 数据中心

将 AI 领导者与仍局限于试点模式的 92% 区分开的 5 种策略

高墙花园出现裂痕：纳德拉押注微软的 Copilots —— 以及 Azure 的下一步动作 —— 基于 A2A/MCP 的互操作性

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会