几个月前,数百家专注于人形机器人的公司制造的机器人都可以用"缓慢"来形容,最高时速仅为每小时3英里左右。机器人的行走接近于踱步,手臂动作显得迟缓而笨拙。但就在这个周末,我们看到了一个能够快速、优雅、流畅奔跑的机器人。
这清楚地表明,机器人以及其他获得视觉和智能能力的机器,正在以前所未有的速度发展。
Synapse公司AI和数据总监马特·吉尔伯特在最近的TechFirst访谈中说:"突然之间,给AI装上身体在经济上变得可行了。"
将AI嵌入物理硬件的成本正在下降,而AI本身的能力也在成倍提升。硬件不再是阻碍因素,物理AI——嵌入机器人和其他智能机器中的AI——已经开始带来显著的投资回报,吉尔伯特表示。
这就是为什么亚马逊现在拥有超过100万台仓库机器人,并且正在与英伟达一起,对其他物理AI机器人公司进行更多投资的原因。
激光雷达的价格已从75000美元下降至"数百美元而非数千美元",为宝马i7提供激光雷达传感器的Innoviz公司表示。与此同时,十年间电池成本下降了约85%。传感器更便宜了,芯片更便宜了,执行器——可以理解为机器人的肌肉——也更便宜了。
据高盛研究报告,完整人形机器人的成本已下降40%。这个速度出乎意料地快。
"人形机器人的制造成本已经下降——从去年每台估计50000美元(低端型号)到250000美元(最先进版本)的区间,降至现在的30000美元到150000美元区间。我们的分析师原本预期每年下降15-20%,但实际下降了40%。"
当然,即使成本在下降,为AI装上身体也并非易事。
物理AI不仅仅是连接到云端,让机器人查询ChatGPT并在10秒后获得回复。如果机器人需要避免碰撞、安全举起重物或在人类附近停下,延迟就很重要。这意味着需要板载计算。
吉尔伯特说:"如果我需要非常快速的实时处理和反应,我可能会把这些处理放在边缘设备上。"
但并非所有处理都需要即时反应。一些处理将在本地服务器或云端进行,那里更大的AI模型可以处理更困难的推理任务,对高延迟的容忍度也更高。结果是一种混合架构,既能满足设备端的反射动作,也支持本地推理以及基于云的学习和优化。
更便宜的硬件、更好的AI,以及设备端和云端混合计算的结合,实现了极快的开发速度。
人形机器人公司Foundation的首席执行官桑卡特·帕塔克告诉我,公司成立18个月后就有了人形机器人原型,而且不仅仅是基础版本。我从Apptronik听到了类似的故事,当然还有Figure公司,该公司制造的机器人看起来比目前任何其他机器人都跑得更平稳、更快,而这家公司也只是在两年多前才成立。
然而,将人形机器人投入有人类的空间仍然是一个挑战性问题,特别是出于安全考虑。
与数字AI不同,现实世界机器人的错误会产生现实后果。这些通常不是像大语言模型可能产生的幻觉那样的问题。
吉尔伯特说:"在物理世界中,行动往往是不可逆的……这不仅仅是一个错误的句子,而是可能是灾难性的物理动作。"
这就是为什么他说家庭是物理AI和机器人技术的"最后前沿"。家庭环境是无结构的、不可预测的、不断变化的。有小孩,甚至婴儿,还有宠物在周围和脚下。当然还有成年人:同样不可预测。
这使得家庭成为通用人形机器人的终极测试:
"我们知道当人形机器人能够走进任何一个美国家庭并泡一杯咖啡时,我们就解决了通用人形机器人技术。"
也许,还要等到普通家庭能够负担得起一台机器人的时候。
Q&A
Q1:为什么机器人发展突然变得这么快?
A:主要原因是硬件成本大幅下降和AI能力显著提升。激光雷达价格从75000美元降至数百美元,电池成本十年间下降85%,人形机器人整体制造成本下降40%。同时AI技术不断改进,使得给AI装上物理身体在经济上变得可行。
Q2:物理AI和普通AI有什么区别?
A:物理AI需要实时处理和快速反应,不能像数字AI那样依赖云端查询后延迟回复。机器人需要避免碰撞、安全举重或在人类附近停止时,延迟至关重要。因此需要板载计算,并采用设备端、本地服务器和云端的混合架构。
Q3:人形机器人什么时候能进入普通家庭?
A:家庭被认为是物理AI的"最后前沿",因为家庭环境无结构、不可预测且不断变化,还有儿童、宠物等安全隐患。专家认为当人形机器人能走进任何美国家庭并泡咖啡时,就解决了通用人形机器人技术,但还需要普通家庭能负担得起。
好文章,需要你的鼓励
迪士尼研究院开发了一种让双足机器人学会优雅跌倒的新技术。通过强化学习,机器人能够在跌倒时既减少冲击力保护关键部件,又达到用户指定的艺术化姿势。
这项香港科技大学等机构的联合研究提出了SQ-format数据格式,通过混合精度处理实现了大语言模型性能的显著提升。该技术能智能识别模型中的关键信息并分配相应的处理精度,在几乎不损失准确性的前提下将运行速度提升近一倍。研究包含完整的算法设计、硬件实现方案和大量实验验证,为未来AI加速器的软硬件协同设计提供了重要参考。
微软开始在最新Windows 11预览版中推出模型上下文协议(MCP)原生支持的公开预览,这使其备受瞩目的"智能代理操作系统"愿景更接近现实。该更新包含文件资源管理器和Windows设置两个连接器,允许AI代理在用户同意下访问本地文件和修改设备设置。尽管功能强大,微软仍需应对用户对其AI野心的不安和不信任情绪。
华为团队推出EMMA统一多模态架构,仅用4B参数就实现了图像理解、生成和编辑的全面突破。该系统采用32倍压缩比的高效编码器和创新的通道级连接技术,显著减少了计算量。更令人印象深刻的是,EMMA在多项基准测试中超越了参数更大的模型,在GenEval上首次达到0.91高分,展现出统一架构在多模态AI领域的巨大潜力和实用价值。