几个月前,数百家专注于人形机器人的公司制造的机器人都可以用"缓慢"来形容,最高时速仅为每小时3英里左右。机器人的行走接近于踱步,手臂动作显得迟缓而笨拙。但就在这个周末,我们看到了一个能够快速、优雅、流畅奔跑的机器人。
这清楚地表明,机器人以及其他获得视觉和智能能力的机器,正在以前所未有的速度发展。
Synapse公司AI和数据总监马特·吉尔伯特在最近的TechFirst访谈中说:"突然之间,给AI装上身体在经济上变得可行了。"
将AI嵌入物理硬件的成本正在下降,而AI本身的能力也在成倍提升。硬件不再是阻碍因素,物理AI——嵌入机器人和其他智能机器中的AI——已经开始带来显著的投资回报,吉尔伯特表示。
这就是为什么亚马逊现在拥有超过100万台仓库机器人,并且正在与英伟达一起,对其他物理AI机器人公司进行更多投资的原因。
激光雷达的价格已从75000美元下降至"数百美元而非数千美元",为宝马i7提供激光雷达传感器的Innoviz公司表示。与此同时,十年间电池成本下降了约85%。传感器更便宜了,芯片更便宜了,执行器——可以理解为机器人的肌肉——也更便宜了。
据高盛研究报告,完整人形机器人的成本已下降40%。这个速度出乎意料地快。
"人形机器人的制造成本已经下降——从去年每台估计50000美元(低端型号)到250000美元(最先进版本)的区间,降至现在的30000美元到150000美元区间。我们的分析师原本预期每年下降15-20%,但实际下降了40%。"
当然,即使成本在下降,为AI装上身体也并非易事。
物理AI不仅仅是连接到云端,让机器人查询ChatGPT并在10秒后获得回复。如果机器人需要避免碰撞、安全举起重物或在人类附近停下,延迟就很重要。这意味着需要板载计算。
吉尔伯特说:"如果我需要非常快速的实时处理和反应,我可能会把这些处理放在边缘设备上。"
但并非所有处理都需要即时反应。一些处理将在本地服务器或云端进行,那里更大的AI模型可以处理更困难的推理任务,对高延迟的容忍度也更高。结果是一种混合架构,既能满足设备端的反射动作,也支持本地推理以及基于云的学习和优化。
更便宜的硬件、更好的AI,以及设备端和云端混合计算的结合,实现了极快的开发速度。
人形机器人公司Foundation的首席执行官桑卡特·帕塔克告诉我,公司成立18个月后就有了人形机器人原型,而且不仅仅是基础版本。我从Apptronik听到了类似的故事,当然还有Figure公司,该公司制造的机器人看起来比目前任何其他机器人都跑得更平稳、更快,而这家公司也只是在两年多前才成立。
然而,将人形机器人投入有人类的空间仍然是一个挑战性问题,特别是出于安全考虑。
与数字AI不同,现实世界机器人的错误会产生现实后果。这些通常不是像大语言模型可能产生的幻觉那样的问题。
吉尔伯特说:"在物理世界中,行动往往是不可逆的……这不仅仅是一个错误的句子,而是可能是灾难性的物理动作。"
这就是为什么他说家庭是物理AI和机器人技术的"最后前沿"。家庭环境是无结构的、不可预测的、不断变化的。有小孩,甚至婴儿,还有宠物在周围和脚下。当然还有成年人:同样不可预测。
这使得家庭成为通用人形机器人的终极测试:
"我们知道当人形机器人能够走进任何一个美国家庭并泡一杯咖啡时,我们就解决了通用人形机器人技术。"
也许,还要等到普通家庭能够负担得起一台机器人的时候。
Q&A
Q1:为什么机器人发展突然变得这么快?
A:主要原因是硬件成本大幅下降和AI能力显著提升。激光雷达价格从75000美元降至数百美元,电池成本十年间下降85%,人形机器人整体制造成本下降40%。同时AI技术不断改进,使得给AI装上物理身体在经济上变得可行。
Q2:物理AI和普通AI有什么区别?
A:物理AI需要实时处理和快速反应,不能像数字AI那样依赖云端查询后延迟回复。机器人需要避免碰撞、安全举重或在人类附近停止时,延迟至关重要。因此需要板载计算,并采用设备端、本地服务器和云端的混合架构。
Q3:人形机器人什么时候能进入普通家庭?
A:家庭被认为是物理AI的"最后前沿",因为家庭环境无结构、不可预测且不断变化,还有儿童、宠物等安全隐患。专家认为当人形机器人能走进任何美国家庭并泡咖啡时,就解决了通用人形机器人技术,但还需要普通家庭能负担得起。
好文章,需要你的鼓励
芬兰阿尔托大学研究团队开发出革命性光学计算方法,利用单束光线实现复杂张量运算。该技术将数字信息编码到光波的振幅和相位中,通过光波相互作用自动完成深度学习所需的矩阵和张量乘法运算。与传统GPU逐步处理不同,光学系统可同时并行执行所有计算操作,运算速度达到光速级别。研究显示该方法具有被动处理、低功耗等优势,预计3-5年内可集成到现有硬件平台,为AI计算带来重大突破。
新加坡科技设计大学研究团队发现,通过控制大型语言模型的"思考语言"可显著提升输出多样性。研究显示,AI用非英语语言思考时能产生更多样化的答案,且距离英语越远的语言效果越好。混合多种语言思考的策略表现最佳,不仅提升创意输出,还增强了文化多元化表达能力,为解决AI输出同质化问题提供了简单有效的方案。
科学家成功将传统公里级粒子加速器缩小至房间大小,并实现商业化。TAU Systems公司开发的激光驱动尾场加速器利用超强激光脉冲产生等离子体,将电子加速至相对论速度。该设备首先用于航天电子设备的辐射测试,能量范围60-100兆电子伏特,成本约1000万美元起。未来还可应用于医疗成像、芯片检测和X射线光刻等领域,有望大幅降低粒子加速器的使用门槛。
浙江大学研究团队开发了PhyRPR三阶段视频生成系统,解决AI视频中物理规律违背问题。该方法将物理理解与视觉生成分离处理:首先用大型语言模型进行物理推理和关键帧生成,然后规划连续运动轨迹,最后通过运动感知技术精化视觉效果。实验证明该方法在物理一致性和视觉质量方面均优于现有技术。