大语言模型如 ChatGPT 虽然展现出对话能力,但问题在于它们并不真正理解所使用的词语。它们主要是与从现实世界获取的数据进行交互的系统,而不是与现实世界本身互动。相比之下,人类会将语言与经历联系在一起。我们之所以知道"烫"这个词的含义,是因为我们在生活中曾经被烫伤过。
那么,是否可能让 AI 达到类似人类的语言理解水平?冲绳科技大学的一个研究团队构建了一个受大脑启发的 AI 模型,该模型由多个神经网络组成。这个 AI 的能力非常有限——它只能学习总共 5 个名词和 8 个动词。但他们的 AI 似乎不仅仅学会了这些词,还学会了这些词背后的概念。
看护机械臂
"我们的模型灵感来自发展心理学。我们试图模仿婴儿学习和发展语言的方式,"冲绳科技大学的研究员 Prasanna Vijayaraghavan 说,他是这项研究的主要作者。
像教婴儿一样教 AI 的想法并不新鲜——它已经应用于将词语与视觉关联的标准神经网络。研究人员还尝试过用绑在婴儿身上的 GoPro 摄像机的视频流来教 AI。问题是婴儿在学习时做的远不止将物品与词语关联起来。他们会触摸一切——抓取物品、操作它们、到处扔东西,通过这种方式,他们学会用语言思考和计划行动。抽象的 AI 模型无法做到这些,所以 Vijayaraghavan 的团队给了它一个实体体验——他们的 AI 被训练在一个能与世界互动的实际机器人中。
Vijayaraghavan 的机器人是一个相当简单的系统,有一个机械臂和一个抓手,可以拾取物体并移动它们。视觉由一个简单的 RGB 摄像头提供,以 64×64 像素的分辨率输送视频。
机器人和摄像头被放置在一个工作空间中,放在一张白色桌子前,桌子上放着绿色、黄色、红色、紫色和蓝色的积木。机器人的任务是根据简单的指令操作这些积木,比如"向左移动红色"、"向右移动蓝色"或"把红色放在蓝色上面"。这些看起来并不特别具有挑战性。但具有挑战性的是,构建一个能够以类似人类的方式处理所有这些词语和动作的 AI。"我不想说我们试图让系统在生物学上可行,"Vijayaraghavan 告诉 Ars。"让我们说我们试图从人类大脑中汲取灵感。"
追求自由能
Vijayaraghavan 团队的起点是自由能原理,这是一个假说,认为大脑基于内部模型不断对世界进行预测,然后根据感觉输入更新这些预测。这个想法是我们首先想到一个行动计划来实现期望的目标,然后这个计划根据执行过程中的体验实时更新。如果这个假说是正确的,这种目标导向的计划方案支配着我们所做的一切,从拿起一杯咖啡到实现理想工作。
所有这些都与语言密切相关。帕尔马大学的神经科学家发现,当研究参与者听到与动作相关的句子时,大脑的运动区域会被激活。为了在机器人中模拟这一点,Vijayaraghavan 使用了四个在紧密相连的系统中工作的神经网络。第一个负责处理来自摄像头的视觉数据。它与第二个神经网络紧密集成,后者处理本体感受:确保机器人意识到其位置和身体运动的所有过程。这第二个神经网络还建立了操作桌子上积木所需的动作内部模型。这两个神经网络还连接到视觉记忆和注意力模块,使它们能够可靠地关注选定的对象并将其与图像背景分离。
第三个神经网络相对简单,使用"向右移动红色"等句子的向量化表示来处理语言。最后,第四个神经网络作为关联层工作,在每个时间步预测前三个网络的输出。"当我们做一个动作时,我们不总是需要把它说出来,但我们在某个时候会在脑海中有这种语言表达,"Vijayaraghavan 说。他和他的团队构建的 AI 就是要做到这一点:无缝连接语言、本体感受、动作计划和视觉。
当机器人的大脑运行起来后,他们开始教它一些可能的命令组合和动作序列。但他们并没有教它所有的组合。
组合性的诞生
2016 年,心理学和数据科学教授 Brenden Lake 发表了一篇论文,他的团队在其中列举了机器需要掌握的一系列能力,才能真正像人类一样学习和思考。其中之一是组合性:将整体分解成可以重复使用的部分的能力。这种重复使用让它们能够将获得的知识推广到新的任务和情况中。"组合性阶段是儿童学会组合词语来解释事物的时候。他们(最初)学习物体的名称,动作的名称,但这些只是单个词。当他们学会这个组合性概念时,他们的交流能力就会爆发式增长,"Vijayaraghavan 解释道。
他的团队建立的 AI 就是为了这个确切的目的:看看它是否会发展出组合性。事实证明它确实做到了。
一旦机器人学会了某些命令和动作是如何连接的,它也学会了将这些知识推广到执行它从未听过的命令,识别它从未执行过的动作的名称,然后在它从未见过的积木组合上执行这些动作。Vijayaraghavan 的 AI 理解了向右或向左移动某物或将物品放在某物上面的概念。它还可以组合词语来命名以前未见过的动作,比如将蓝色积木放在红色积木上。
虽然以前也有教机器人从语言中提取概念的尝试,但那些努力主要集中在让它们理解如何用词语描述视觉。Vijayaraghavan 在此基础上加入了本体感受和动作计划,基本上是在他的机器人理解世界的方式中加入了一个整合感觉和运动的层。
但一些问题还有待解决。AI 的工作空间非常有限。只有几个物体,而且都是单一的立方体形状。词汇只包括颜色和动作的名称,没有修饰语、形容词或副词。最后,机器人必须学习所有可能的名词和动词组合中的约 80% 才能很好地推广到剩余的 20%。当这些比例降到 60/40 和 40/60 时,其表现会变差。
但可能只需要多一点计算能力就能解决这个问题。"我们在这项研究中只有一个 RTX 3090 GPU,所以使用最新一代 GPU,我们可以解决很多这些问题,"Vijayaraghavan 认为。这是因为团队希望添加更多的词语和更多的动作不会导致计算能力需求的大幅增加。"我们想要扩展系统。我们有一个人形机器人,头部有摄像头,有两只手,可以做的事情比单个机械臂多得多。所以下一步是:在现实世界中使用真实世界的机器人,"Vijayaraghavan 说。
好文章,需要你的鼓励
最新数据显示,Windows 11市场份额已达50.24%,首次超越Windows 10的46.84%。这一转变主要源于Windows 10即将于2025年10月14日结束支持,企业用户加速迁移。一年前Windows 10份额还高达66.04%,而Windows 11仅为29.75%。企业多采用分批迁移策略,部分选择付费延长支持或转向Windows 365。硬件销售受限,AI PC等高端产品销量平平,市场份额提升更多来自系统升级而非新设备采购。
清华大学团队开发出LangScene-X系统,仅需两张照片就能重建完整的3D语言场景。该系统通过TriMap视频扩散模型生成RGB图像、法线图和语义图,配合语言量化压缩器实现高效特征处理,最终构建可进行自然语言查询的三维空间。实验显示其准确率比现有方法提高10-30%,为VR/AR、机器人导航、智能搜索等应用提供了新的技术路径。
新一代液态基础模型突破传统变换器架构,能耗降低10-20倍,可直接在手机等边缘设备运行。该技术基于线虫大脑结构开发,支持离线运行,无需云服务和数据中心基础设施。在性能基准测试中已超越同等规模的Meta Llama和微软Phi模型,为企业级应用和边缘计算提供低成本、高性能解决方案,在隐私保护、安全性和低延迟方面具有显著优势。
IntelliGen AI推出IntFold可控蛋白质结构预测模型,不仅达到AlphaFold 3同等精度,更具备独特的"可控性"特征。该系统能根据需求定制预测特定蛋白质状态,在药物结合亲和力预测等关键应用中表现突出。通过模块化适配器设计,IntFold可高效适应不同任务而无需重新训练,为精准医学和药物发现开辟了新路径。