几个月前,数百家专注于人形机器人的公司制造的机器人都可以用"缓慢"来形容,最高时速仅为每小时3英里左右。机器人的行走接近于踱步,手臂动作显得迟缓而笨拙。但就在这个周末,我们看到了一个能够快速、优雅、流畅奔跑的机器人。
这清楚地表明,机器人以及其他获得视觉和智能能力的机器,正在以前所未有的速度发展。
Synapse公司AI和数据总监马特·吉尔伯特在最近的TechFirst访谈中说:"突然之间,给AI装上身体在经济上变得可行了。"
将AI嵌入物理硬件的成本正在下降,而AI本身的能力也在成倍提升。硬件不再是阻碍因素,物理AI——嵌入机器人和其他智能机器中的AI——已经开始带来显著的投资回报,吉尔伯特表示。
这就是为什么亚马逊现在拥有超过100万台仓库机器人,并且正在与英伟达一起,对其他物理AI机器人公司进行更多投资的原因。
激光雷达的价格已从75000美元下降至"数百美元而非数千美元",为宝马i7提供激光雷达传感器的Innoviz公司表示。与此同时,十年间电池成本下降了约85%。传感器更便宜了,芯片更便宜了,执行器——可以理解为机器人的肌肉——也更便宜了。
据高盛研究报告,完整人形机器人的成本已下降40%。这个速度出乎意料地快。
"人形机器人的制造成本已经下降——从去年每台估计50000美元(低端型号)到250000美元(最先进版本)的区间,降至现在的30000美元到150000美元区间。我们的分析师原本预期每年下降15-20%,但实际下降了40%。"
当然,即使成本在下降,为AI装上身体也并非易事。
物理AI不仅仅是连接到云端,让机器人查询ChatGPT并在10秒后获得回复。如果机器人需要避免碰撞、安全举起重物或在人类附近停下,延迟就很重要。这意味着需要板载计算。
吉尔伯特说:"如果我需要非常快速的实时处理和反应,我可能会把这些处理放在边缘设备上。"
但并非所有处理都需要即时反应。一些处理将在本地服务器或云端进行,那里更大的AI模型可以处理更困难的推理任务,对高延迟的容忍度也更高。结果是一种混合架构,既能满足设备端的反射动作,也支持本地推理以及基于云的学习和优化。
更便宜的硬件、更好的AI,以及设备端和云端混合计算的结合,实现了极快的开发速度。
人形机器人公司Foundation的首席执行官桑卡特·帕塔克告诉我,公司成立18个月后就有了人形机器人原型,而且不仅仅是基础版本。我从Apptronik听到了类似的故事,当然还有Figure公司,该公司制造的机器人看起来比目前任何其他机器人都跑得更平稳、更快,而这家公司也只是在两年多前才成立。
然而,将人形机器人投入有人类的空间仍然是一个挑战性问题,特别是出于安全考虑。
与数字AI不同,现实世界机器人的错误会产生现实后果。这些通常不是像大语言模型可能产生的幻觉那样的问题。
吉尔伯特说:"在物理世界中,行动往往是不可逆的……这不仅仅是一个错误的句子,而是可能是灾难性的物理动作。"
这就是为什么他说家庭是物理AI和机器人技术的"最后前沿"。家庭环境是无结构的、不可预测的、不断变化的。有小孩,甚至婴儿,还有宠物在周围和脚下。当然还有成年人:同样不可预测。
这使得家庭成为通用人形机器人的终极测试:
"我们知道当人形机器人能够走进任何一个美国家庭并泡一杯咖啡时,我们就解决了通用人形机器人技术。"
也许,还要等到普通家庭能够负担得起一台机器人的时候。
Q&A
Q1:为什么机器人发展突然变得这么快?
A:主要原因是硬件成本大幅下降和AI能力显著提升。激光雷达价格从75000美元降至数百美元,电池成本十年间下降85%,人形机器人整体制造成本下降40%。同时AI技术不断改进,使得给AI装上物理身体在经济上变得可行。
Q2:物理AI和普通AI有什么区别?
A:物理AI需要实时处理和快速反应,不能像数字AI那样依赖云端查询后延迟回复。机器人需要避免碰撞、安全举重或在人类附近停止时,延迟至关重要。因此需要板载计算,并采用设备端、本地服务器和云端的混合架构。
Q3:人形机器人什么时候能进入普通家庭?
A:家庭被认为是物理AI的"最后前沿",因为家庭环境无结构、不可预测且不断变化,还有儿童、宠物等安全隐患。专家认为当人形机器人能走进任何美国家庭并泡咖啡时,就解决了通用人形机器人技术,但还需要普通家庭能负担得起。
好文章,需要你的鼓励
ChatGPT发布三年后,物理AI成为行业最新热词。物理AI是指在硬件中实现的AI系统,能够感知周围世界并进行推理以执行操作。与传统机器人不同,物理AI具备推理、行动和与环境交互的能力。智能眼镜是物理AI的典型代表,能够看到和听到用户所体验的内容。高通专家指出,AI可穿戴设备可以为机器人提供基于真实人类体验的高质量数据集,形成良性生态系统。
德国弗劳恩霍夫研究院提出ViTNT-FIQA人脸质量评估新方法,无需训练即可评估图像质量。该方法基于Vision Transformer层间特征稳定性原理,通过测量图像块在相邻层级间的变化幅度判断质量。在八个国际数据集上的实验显示其性能可媲美现有最先进方法,且计算效率更高,为人脸识别系统提供了即插即用的质量控制解决方案,有望广泛应用于安防监控和身份认证等领域。
来自加州大学伯克利分校和康奈尔大学的研究团队,通过分析130万篇学术论文发现,使用ChatGPT等AI工具的科学家论文产出平均提升40-60%,且英语非母语研究者受益最大。
布朗大学联合图宾根大学的研究团队通过系统实验发现,AI医疗助手的角色设定会产生显著的情境依赖效应:医疗专业角色在急诊场景下表现卓越,准确率提升20%,但在普通医疗咨询中反而表现更差。研究揭示了AI角色扮演的"双刃剑"特性,强调需要根据具体应用场景精心设计AI身份,而非简单假设"更专业等于更安全",为AI医疗系统的安全部署提供了重要指导。