终于,我们迎来了一个真正让人信赖的 AI 模型:LegoGPT 接受文本提示,输出一个物理上稳定的设计。
然而,在我们激动得迫不及待要求它设计一个 LEGO(R) Sistine Chapel 之前,需要注意的是,该工具只能生成适用于 20 x 20 x 20 网格内的设计,并仅使用八种基本积木类型 (1 x 1, 1 x 2, 1 x 4, 1 x 6, 1 x 8, 2 x 2, 2 x 4, 和 2 x 6)。这里没有所谓 “nice part usage” 。
来自 Pun et al 的论文中的 Lego-lization 示例图片:第一张图的输入提示为 "Table featuring a flat rectangular surface over four evenly spaced legs",第二张图的提示为 "Compact sofa with a geometric design" —— 点击放大查看。
你得到的是一个能够根据文本提示,提出一个既可以用 Lego 积木搭建且关键时刻保持物理稳定的设计的模型。
此项来自卡内基梅隆大学的研究 [PDF] 的成果,由 Ava Pun, Kangle Deng, Ruixuan Liu, Deva Ramanan, Changliu Liu 和 Jun-Yan Zhu 共同完成。
该系统的工作原理是:首先根据输入的提示生成一个 ShapeNetCore 网格模型,然后将其体素化到 20 x 20 x 20 的网格上,接着通过 “Legolization” 确定积木的布局。
团队解释道:“我们通过随机化积木布局,同时保留整体形状,为每个形状增加了多种结构变化。” 对每种变化都进行了稳定性分析,以剔除可能会散架的设计。
研究员 Ava Pun 对 The Register 表示:“我们憧憬一个制作物品变得极为个性化的未来!想象一下,你只需输入你所需的内容,或者向我们展示一张椅子的图片,然后——砰的一声,我们就可以在一两周内制作该产品并将其邮寄给你。”
“不幸的是,现今的生成式 AI 无法实现这一目标。你可以生成一张酷炫的椅子图片或视频,但模型并不知道现实世界中物品的制作方式,例如,是什么使物品稳定,以及各部分如何组合在一起。”
“为了解决这个问题,我们将物理定律和组装约束融入了诸如大语言模型 (LLM) 之类的生成式模型,从而使我们能够创建在现实世界中可运作的物体。我们在积木组装领域探索了这一目标,因为这种介质普及度高,且在不同实验室中都能重复获得相同结果。我们相信,我们的方法也可以应用于其他制造任务。例如,具有特定人体工学需求的用户可以利用它,通过预定义的零件集来设计定制家具。”
尽管这种雄心值得称赞,而且我们已见过足够多的 AI 生成图像,知道现实世界的物理特性往往缺失,但从一个看似童年 Lego 积木盒子中的作品跃迁到根据文本提示就能寄送成品,仍存在巨大差距。
Pun 也承认,要让模型看起来令人印象深刻而非仅仅是粗糙的块状近似,还需要“更多的精细化和人类创造力”。他表示:“我们认为这将对激发新想法和快速草拟初步设计非常有用。对创作者而言,它可以成为一个很棒的工具,用于头脑风暴和在早期阶段探索各种不同的创意。”
对于头脑风暴而言,它无疑是一个很棒的工具,而这是当前 AI 擅长的领域。然而,由于其有限的零件库和网格尺寸,这个初始版本更多地展示了可能实现的范例。Pun 说:“在未来的工作中,我们计划扩展积木库,涵盖更多种尺寸和类型的积木。”
“我们目前的系统仍然相当有限,因为它仅支持 20 x 20 x 20 尺寸、20 种对象类别以及简单的积木类型。但我们正在努力扩展系统的能力,请大家关注后续进展。”
我们询问了 Lego 对这项研究的看法,一位发言人表示:“我们目前无法对此发表评论。”
好文章,需要你的鼓励
Aqara Hub M200是进入Aqara生态系统的新入口,作为支持Matter的Zigbee 3.0中枢,可将传感器、开关、按钮等配件通过Matter共享到HomeKit。相比Hub M3设计更紧凑,支持2.4和5GHz双频Wi-Fi。M200充分利用Zigbee协议的低成本优势,让用户以更实惠的价格构建智能家居,同时享受完整的HomeKit功能。对于HomeKit用户来说,这是一个稳定可靠的桥接方案。
腾讯AI实验室联合港校提出RePlan框架,解决复杂图像编辑中的指令理解和精确定位难题。该方法采用"计划-执行"架构,让视觉语言模型先推理制定区域级编辑计划,再通过创新的注意力机制精确执行。仅用1000个样本训练就超越了大规模数据训练的模型,在新建的IV-Edit基准上表现出色。
LG电视通过系统更新强制安装微软Copilot快捷方式引发争议。虽然LG承诺将允许用户删除该图标,但仍计划在webOS系统中深度整合Copilot功能。三星等厂商也在推进类似AI功能。专家指出,智能电视内置聊天机器人会增加隐私追踪的复杂性,加剧系统臃肿问题。当前智能电视行业正通过用户追踪和广告实现软件盈利,消费者应关注隐私保护问题。
这项由香港科技大学等机构联合完成的研究首次让AI获得了原生的3D空间理解能力。N3D-VLM系统能够像人类一样准确感知物体的立体位置关系,先精确定位物体的3D边界框,再进行空间推理。研究团队还开发了巧妙的数据生成方法,将2D标注转换为278万个3D样本,并构建了全新的N3D-Bench测试基准。实验显示该系统在空间推理任务上准确率超过90%,远超现有方法,为机器人、自动驾驶等领域提供了重要技术突破。