在我们这个高科技世界中,最大的问题之一是何时能看到以先进机器人形式出现的物理AI代理。
人们可能会争论这些机器人是否会呈现人形,或者会有其他形态。
但无论如何,业界普遍认为,这些新型伙伴即将以某种形式进入我们的世界。
Nvidia的研究员Jim Fan近期就物理AI的即将到来发表了看法。
他在平安夜发布在X平台上表示:"机器人不会被孤立训练。它们将作为'钢铁舰队'在实时图形引擎中模拟,并在大规模集群中部署,以产生下一个万亿级高质量训练 Token。大多数实体代理将在模拟环境中诞生,当准备就绪时,将零样本迁移到现实世界。它们将共享一个'蜂巢思维',通过来回传递潜在嵌入来协调多代理物理任务。"
然而,在一篇深入探讨AI代理机制的LinkedIn文章中,他也暗示这种智能首先将主要以非实体形式存在。
Fan写道:"在现实世界拥有上百万机器人之前,我们首先会在虚拟世界看到数十亿个实体代理。游戏是我2024年致力的第二个重要领域。AI和游戏天生一对,他们的美好联姻才刚刚开始。"
AI的演变
这篇文章中一个有趣的观点是,Fan将游戏环境称为"通用AI萌芽的原始汤"。以Minecraft算法为例,他指出代理受限于其所处环境的复杂性。
他写道:"还有很多游戏需要极其先进的感知、敏捷性、探索、推理和规划能力。我们才刚刚触及表面。"
注意力机制
Fan还提到了当今大语言模型引擎使用的一些高级策略。
我曾详细写过现代 Transformer 作为大语言模型设计关键部分的概念。Transformer 作为一种"注意力机制",使模型能够更多地关注对人类重要的内容,而较少关注不太相关的内容。这本身就减少了任何给定任务的资源密集度,为高 Token 系统创造了巨大的效率。
他写道:"Token 是由代理本身通过探索主动选择的。它(代理)可以选择尝试最大程度减少其内部不确定性的事物 - 有点像人类好奇心的运作方式。"
思考AI引擎具有这种驱动力,以及它们如何获取知识,或者用Fan的话说,"减少其内部不确定性"是很有趣的 - 这实际上听起来有点像对学习本身的华丽描述...
新型NPC
"我相信2024年是一个转折点,"Fan继续说。"数字版西部世界即将到来,这将彻底改变整个行业。"
当他描述非玩家角色 (NPC) 将如何行动时,想想我们过去如何看待NPC - 作为僵硬的、明显人工的角色,与完全的人类玩家形成对比。
Fan补充说:"游戏将真正富有生命力。角色们将与人类和彼此互动,建立关系,在其生命周期内采取一致的行动,并以类似人类的方式做出反应。每个游戏都将具有无限的重玩价值,每个玩家都将有独特的定制体验。"
如果你已经听过年轻游戏玩家谈论在当今游戏中与NPC建立关系,那就请做好准备,因为随着NPC变得更像人类,这种情况将会扩大。
Inworld的Ilya Gelfenbeyn在去年1月评论这一进展时写道:"随着视频游戏的发展,支撑NPC的技术也必须随之发展。NPC行为的演变是由技术进步塑造的,为更复杂的特征脚本(在业内也称为工作系统)开创了新机会。简单来说,这意味着NPC可以根据设定的变量以更多方式做出响应。"
未来展望
最终,我们很可能会看到这些进步以游戏化现实的形式出现。它们将以娱乐和探索性玩法的形式出现,但可能会超越这些范畴,成为我们人类体验中不可或缺的部分。
至于物理机器人,我们可能也会看到它们以实用的方式发展。人们总是谈论管家机器人,以及我们何时能拥有它。同时,人口正在下降,劳动力需求旺盛。我们很快就会看到这些自动机器人投入工作。
无论如何,我会在2025年继续为您带来更多发展动态。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。