虽然当前展示的重点是机械臂而非完整的人形机器人,但其底层技术与下一代人形机器人所使用的技术是相同的。Google 表示,其 Gemini Robotics 模型旨在"轻松适应不同类型的机器人",目前已在 Apptronik 的人形机器人 Apollo 上进行测试。
"为了让 AI 在物理世界中发挥实用价值并为人类提供帮助,它们必须展现出'具身'推理能力 —— 即类似人类理解周围世界并作出反应的能力,"DeepMind 机器人团队负责人 Carolina Parada 在一份声明中表示。
这次演示是来自 Google、Meta 等科技巨头以及 Figure AI、Agility Robotics 等初创公司新一波人形机器人浪潮的一部分。这些机器人被定位为物流和家务的未来解决方案。除了飞行汽车之外,可能没有哪项科幻技术能像机器人助手这样长期吸引我们的想象力了 —— 它们终将把我们从洗碗和洗衣等琐事中解放出来 (当然,这些故事有时也会让我们感到恐惧)。如今,在先进 AI 模型的加持下,这些机械工人正从我们的想象中走出,开始迈入现实。
但在技术不断进步的同时,一个根本性的问题仍然存在:我们是该为我们的世界构建机器人,还是该调整我们的空间以适应更简单的机器?
人形机器人的制造者们推崇前者。他们认为,世界本就是为人类身体设计的,包括楼梯、与肩同高的架子,以及位于视线高度的重要物品。人形机器人支持者认为,这使得人类形态成为了旨在融入厨房等现有环境的机器的最合理设计。
他们正在与目前唯一成功的机器人展开艰难的竞争,这些机器人主要是仓库中的非人形机器人,仓库的货架系统是为轮式拣选机器人设计的,或者是专门划分给机器人的区域。这些专门设计的环境允许使用更简单的机器人设计。
但人形机器人公司拥有一个他们认为能改变一切的强大新工具:像 Google 的 Gemini 和 OpenAI 的 GPT 这样能理解和生成人类语言的 AI 系统。这项技术可以让人们像与他人交谈一样简单地与机器人对话 —— "叠那件衣服"或"把碗筷收起来" —— 无需专业编程或技术知识。更有前途的是,这些 AI 模型可能帮助机器人适应它们未经专门训练的新情况,这可能解决机器人领域最持久的挑战之一。
尽管有令人印象深刻的演示和诸多承诺,但当前的现实更为平淡。相比人类,机器人的动作仍然缓慢,在处理抓取时会改变形状的精细或可变形物品时仍然困难重重。家庭中充满不可预测的混乱,比如小孩四处奔跑、玩具散落一地,或是意外情况如在冰箱里找到钥匙 —— 这些在许多家庭中可能只是普通的周二场景 —— 仍然是远超当前能力的未经测试场景。
这些问题并没有阻止公司们尝试。据报道,Meta 正在构建一个人形机器人平台,旨在成为"机器人的 Android 系统"。已经在诸多项目中分身乏术的 Elon Musk 仍然抽出时间继续发布关于 Tesla 的 Optimus 人形机器人的消息。他最近在 X 平台上宣布,他的机器人中至少有一个将在"明年年底前"前往火星,比人类早至少几年。
但在这些机器人广泛使用之前,仍然存在其他重要障碍。人机交互研究人员观察到,人类对机器人错误的容忍度通常远低于对人类错误的容忍度。该领域的研究表明,虽然我们可能会原谅偶尔掉东西的人类同事,但机器人只要犯一个重大错误就可能永久失去用户信任。
随着机器人整合大语言模型,这个信任问题变得更加复杂,因为大语言模型有时会"产生幻觉"或生成错误信息。由于大语言模型幻觉而自信地误解命令的机器人可能在物理环境中造成危险情况。虽然 AI 聊天机器人的错误可能仅仅令人沮丧,但根据幻觉指令行动的机器人可能会损坏财产或伤害人员。
尽管如此,数十亿美元仍在持续流入人形机器人领域,这些投资来自于在科幻作品熏陶下成长起来且不愿放弃梦想的科技领袖们。在本周的 Nvidia 年度开发者大会上,CEO Jensen Huang 展示了新软件,他表示这将帮助人形机器人更容易地在我们的空间中移动。当后来被问到何时才能知道 AI 已经无处不在时,他说是当人形机器人"四处游荡"的时候。他说这很快就会到来。
"这不是一个五年后的问题,"他说,"这是一个几年内的问题。"
好文章,需要你的鼓励
最新数据显示,Windows 11市场份额已达50.24%,首次超越Windows 10的46.84%。这一转变主要源于Windows 10即将于2025年10月14日结束支持,企业用户加速迁移。一年前Windows 10份额还高达66.04%,而Windows 11仅为29.75%。企业多采用分批迁移策略,部分选择付费延长支持或转向Windows 365。硬件销售受限,AI PC等高端产品销量平平,市场份额提升更多来自系统升级而非新设备采购。
清华大学团队开发出LangScene-X系统,仅需两张照片就能重建完整的3D语言场景。该系统通过TriMap视频扩散模型生成RGB图像、法线图和语义图,配合语言量化压缩器实现高效特征处理,最终构建可进行自然语言查询的三维空间。实验显示其准确率比现有方法提高10-30%,为VR/AR、机器人导航、智能搜索等应用提供了新的技术路径。
新一代液态基础模型突破传统变换器架构,能耗降低10-20倍,可直接在手机等边缘设备运行。该技术基于线虫大脑结构开发,支持离线运行,无需云服务和数据中心基础设施。在性能基准测试中已超越同等规模的Meta Llama和微软Phi模型,为企业级应用和边缘计算提供低成本、高性能解决方案,在隐私保护、安全性和低延迟方面具有显著优势。
IntelliGen AI推出IntFold可控蛋白质结构预测模型,不仅达到AlphaFold 3同等精度,更具备独特的"可控性"特征。该系统能根据需求定制预测特定蛋白质状态,在药物结合亲和力预测等关键应用中表现突出。通过模块化适配器设计,IntFold可高效适应不同任务而无需重新训练,为精准医学和药物发现开辟了新路径。