“世界需要机器人”这是英伟达CEO黄仁勋在谈及未来技术趋势时反复强调的一点。随着全球技术的快速推进与社会结构的变化,通用人形机器人的发展正成为解决关键社会问题的一个重要途径。在他看来,机器人不仅是技术进步的象征,同时也是未来世界的迫切需求。

黄仁勋指出,制造通用人形机器人的技术是“我们当今时代最重要的一项技术挑战”,其中,Transformer架构、大语言模型以及基础模型等创新为人形机器人的实现创造了可能。他认为,“这是人类第一次拥有了能够大幅推动这一领域技术的能力”。目前,我们面临着老龄化加剧、人口出生率下降以及人类对工作类型偏好的变化导致劳动力不足的问题,而机器人将成为填补这一缺口的关键。人形机器人的意义尤其重大,因为我们生活的世界从一开始就是围绕人类而建构的,这类机器人最能无缝地融入社会。
然而,机器人无法简单地被制造出来,它们需要能够“理解”人类和世界。如今,像ChatGPT这样的语言模型已经使我们迈出了重要一步,将自然语言的理解从梦想带入了现实。但对于机器人来说,这还远远不够。“它们还需要理解物理世界的动态机制,比如重力、摩擦、空间关系、几何关系,甚至像对象的永久存在性这样的人类常识。”这一点非常关键。为了解决这个问题,英伟达提出了世界基础模型(World Foundation Model)的概念。而Cosmos正是这一基础模型的实现形式,黄仁勋表示,如果说ChatGPT及类似的大语言模型让AI理解了文字和语言,那么Cosmos的使命就是让AI理解世界本身的物理规律和动态机制。
黄仁勋进一步阐述了机器人技能学习的难点,以及如何通过创新手段突破这些障碍。“教导人形机器人某个技能的方法其实有点像教导人类,我们会通过示范告诉它,这样拿起一个玻璃杯是正确的姿势。可是玻璃杯的大小、形状、位置总是在变化。但对于机器人来说,任务的本质是‘拿起玻璃杯’。”通过英伟达的Isaac Gym和Omniverse模拟环境,这种技能的训练效率可以获得极大的提升。在虚拟平台中,研究者只需完成少量的人类示范,AI会根据这些示范生成无数个变量场景,机器人借助这些变体,能够学习各种可能情况的“拿起玻璃杯”动作,而不是局限于单一的操作方法。

Omniverse不仅提供了一个完全遵循物理规律的虚拟世界环境,还可以让机器人快速并行地进行训练。“如果让机器人在现实中学会行走,需要以正常的‘人类时间’进行线性学习。但在Omniverse中,我们可以同时训练无数个机器人,让它们在10万种不同的环境中完成同一个任务。”黄仁勋表示,这种通过虚拟世界模拟的“多元宇宙”训练能够将原本需要十年的学习过程缩短到数小时。更重要的是,机器人在虚拟世界中的学习能力可以无缝迁移到现实世界,当训练完成后,他们会将机器人大脑“转移”到实体机器人中。
人工智能和机器人的结合不仅解决了技术难题,也为社会前进、解决人口老龄化和劳动力短缺提供了一条创新的路径。像Omniverse和Cosmos这样的开放平台,通过创造虚拟的“多元宇宙”供机器人学习,进一步加快了这一愿景的实现。黄仁勋认为,机器人和人工智能将在未来十年内成为整个科学技术体系的重要支柱,这些技术不再是遥远的未来,而是触手可及的现在,一场新的工业革命已经启动。
参考资料:https://www.youtube.com/watch?v=Z_DR1_zhmCU
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。