终于,我们迎来了一个真正让人信赖的 AI 模型:LegoGPT 接受文本提示,输出一个物理上稳定的设计。
然而,在我们激动得迫不及待要求它设计一个 LEGO(R) Sistine Chapel 之前,需要注意的是,该工具只能生成适用于 20 x 20 x 20 网格内的设计,并仅使用八种基本积木类型 (1 x 1, 1 x 2, 1 x 4, 1 x 6, 1 x 8, 2 x 2, 2 x 4, 和 2 x 6)。这里没有所谓 “nice part usage” 。
来自 Pun et al 的论文中的 Lego-lization 示例图片:第一张图的输入提示为 "Table featuring a flat rectangular surface over four evenly spaced legs",第二张图的提示为 "Compact sofa with a geometric design" —— 点击放大查看。
你得到的是一个能够根据文本提示,提出一个既可以用 Lego 积木搭建且关键时刻保持物理稳定的设计的模型。
此项来自卡内基梅隆大学的研究 [PDF] 的成果,由 Ava Pun, Kangle Deng, Ruixuan Liu, Deva Ramanan, Changliu Liu 和 Jun-Yan Zhu 共同完成。
该系统的工作原理是:首先根据输入的提示生成一个 ShapeNetCore 网格模型,然后将其体素化到 20 x 20 x 20 的网格上,接着通过 “Legolization” 确定积木的布局。
团队解释道:“我们通过随机化积木布局,同时保留整体形状,为每个形状增加了多种结构变化。” 对每种变化都进行了稳定性分析,以剔除可能会散架的设计。
研究员 Ava Pun 对 The Register 表示:“我们憧憬一个制作物品变得极为个性化的未来!想象一下,你只需输入你所需的内容,或者向我们展示一张椅子的图片,然后——砰的一声,我们就可以在一两周内制作该产品并将其邮寄给你。”
“不幸的是,现今的生成式 AI 无法实现这一目标。你可以生成一张酷炫的椅子图片或视频,但模型并不知道现实世界中物品的制作方式,例如,是什么使物品稳定,以及各部分如何组合在一起。”
“为了解决这个问题,我们将物理定律和组装约束融入了诸如大语言模型 (LLM) 之类的生成式模型,从而使我们能够创建在现实世界中可运作的物体。我们在积木组装领域探索了这一目标,因为这种介质普及度高,且在不同实验室中都能重复获得相同结果。我们相信,我们的方法也可以应用于其他制造任务。例如,具有特定人体工学需求的用户可以利用它,通过预定义的零件集来设计定制家具。”
尽管这种雄心值得称赞,而且我们已见过足够多的 AI 生成图像,知道现实世界的物理特性往往缺失,但从一个看似童年 Lego 积木盒子中的作品跃迁到根据文本提示就能寄送成品,仍存在巨大差距。
Pun 也承认,要让模型看起来令人印象深刻而非仅仅是粗糙的块状近似,还需要“更多的精细化和人类创造力”。他表示:“我们认为这将对激发新想法和快速草拟初步设计非常有用。对创作者而言,它可以成为一个很棒的工具,用于头脑风暴和在早期阶段探索各种不同的创意。”
对于头脑风暴而言,它无疑是一个很棒的工具,而这是当前 AI 擅长的领域。然而,由于其有限的零件库和网格尺寸,这个初始版本更多地展示了可能实现的范例。Pun 说:“在未来的工作中,我们计划扩展积木库,涵盖更多种尺寸和类型的积木。”
“我们目前的系统仍然相当有限,因为它仅支持 20 x 20 x 20 尺寸、20 种对象类别以及简单的积木类型。但我们正在努力扩展系统的能力,请大家关注后续进展。”
我们询问了 Lego 对这项研究的看法,一位发言人表示:“我们目前无法对此发表评论。”
好文章,需要你的鼓励
随着AI模型参数达到数十亿甚至万亿级别,工程团队面临内存约束和计算负担等共同挑战。新兴技术正在帮助解决这些问题:输入和数据压缩技术可将模型压缩50-60%;稀疏性方法通过关注重要区域节省资源;调整上下文窗口减少系统资源消耗;动态模型和强推理系统通过自学习优化性能;扩散模型通过噪声分析生成新结果;边缘计算将数据处理转移到网络端点设备。这些创新方案为构建更高效的AI架构提供了可行路径。
清华大学团队开发了CAMS智能框架,这是首个将城市知识大模型与智能体技术结合的人类移动模拟系统。该系统仅需用户基本信息就能在真实城市中生成逼真的日常轨迹,通过三个核心模块实现了个体行为模式提取、城市空间知识生成和轨迹优化。实验表明CAMS在多项指标上显著优于现有方法,为城市规划、交通管理等领域提供了强大工具。
Meta以143亿美元投资Scale AI,获得49%股份,这是该公司在AI竞赛中最重要的战略举措。该交易解决了Meta在AI发展中面临的核心挑战:获取高质量训练数据。Scale AI创始人王亚历山大将加入Meta领导新的超级智能研究实验室。此次投资使Meta获得了Scale AI在全球的数据标注服务,包括图像、文本和视频处理能力,同时限制了竞争对手的数据获取渠道。
MIT研究团队发现了一个颠覆性的AI训练方法:那些通常被丢弃的模糊、失真的"垃圾"图片,竟然能够训练出比传统方法更优秀的AI模型。他们开发的Ambient Diffusion Omni框架通过智能识别何时使用何种质量的数据,不仅在ImageNet等权威测试中创造新纪录,还为解决AI发展的数据瓶颈问题开辟了全新道路。