“世界需要机器人”这是英伟达CEO黄仁勋在谈及未来技术趋势时反复强调的一点。随着全球技术的快速推进与社会结构的变化,通用人形机器人的发展正成为解决关键社会问题的一个重要途径。在他看来,机器人不仅是技术进步的象征,同时也是未来世界的迫切需求。
黄仁勋指出,制造通用人形机器人的技术是“我们当今时代最重要的一项技术挑战”,其中,Transformer架构、大语言模型以及基础模型等创新为人形机器人的实现创造了可能。他认为,“这是人类第一次拥有了能够大幅推动这一领域技术的能力”。目前,我们面临着老龄化加剧、人口出生率下降以及人类对工作类型偏好的变化导致劳动力不足的问题,而机器人将成为填补这一缺口的关键。人形机器人的意义尤其重大,因为我们生活的世界从一开始就是围绕人类而建构的,这类机器人最能无缝地融入社会。
然而,机器人无法简单地被制造出来,它们需要能够“理解”人类和世界。如今,像ChatGPT这样的语言模型已经使我们迈出了重要一步,将自然语言的理解从梦想带入了现实。但对于机器人来说,这还远远不够。“它们还需要理解物理世界的动态机制,比如重力、摩擦、空间关系、几何关系,甚至像对象的永久存在性这样的人类常识。”这一点非常关键。为了解决这个问题,英伟达提出了世界基础模型(World Foundation Model)的概念。而Cosmos正是这一基础模型的实现形式,黄仁勋表示,如果说ChatGPT及类似的大语言模型让AI理解了文字和语言,那么Cosmos的使命就是让AI理解世界本身的物理规律和动态机制。
黄仁勋进一步阐述了机器人技能学习的难点,以及如何通过创新手段突破这些障碍。“教导人形机器人某个技能的方法其实有点像教导人类,我们会通过示范告诉它,这样拿起一个玻璃杯是正确的姿势。可是玻璃杯的大小、形状、位置总是在变化。但对于机器人来说,任务的本质是‘拿起玻璃杯’。”通过英伟达的Isaac Gym和Omniverse模拟环境,这种技能的训练效率可以获得极大的提升。在虚拟平台中,研究者只需完成少量的人类示范,AI会根据这些示范生成无数个变量场景,机器人借助这些变体,能够学习各种可能情况的“拿起玻璃杯”动作,而不是局限于单一的操作方法。
Omniverse不仅提供了一个完全遵循物理规律的虚拟世界环境,还可以让机器人快速并行地进行训练。“如果让机器人在现实中学会行走,需要以正常的‘人类时间’进行线性学习。但在Omniverse中,我们可以同时训练无数个机器人,让它们在10万种不同的环境中完成同一个任务。”黄仁勋表示,这种通过虚拟世界模拟的“多元宇宙”训练能够将原本需要十年的学习过程缩短到数小时。更重要的是,机器人在虚拟世界中的学习能力可以无缝迁移到现实世界,当训练完成后,他们会将机器人大脑“转移”到实体机器人中。
人工智能和机器人的结合不仅解决了技术难题,也为社会前进、解决人口老龄化和劳动力短缺提供了一条创新的路径。像Omniverse和Cosmos这样的开放平台,通过创造虚拟的“多元宇宙”供机器人学习,进一步加快了这一愿景的实现。黄仁勋认为,机器人和人工智能将在未来十年内成为整个科学技术体系的重要支柱,这些技术不再是遥远的未来,而是触手可及的现在,一场新的工业革命已经启动。
参考资料:https://www.youtube.com/watch?v=Z_DR1_zhmCU
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。