作者 | 金旺
栏目 | 机器人新纪元
就在上个月,由北京人形机器人创新中心牵头,上海人形机器人创新中心、浙江人形机器人创新中心,以及优必选、宇树科技、中国信通院等共同参与制定的《人形机器人智能化分级》团体标准正式发布。
在这个标准中,根据感知认知、决策学习、执行表现、协作交互四个能力维度,制定了类似自动驾驶的L1-L5级评级标准。
在推动具身智能机器人就四个维度能力升级过程中,既依赖数据、算法能力的提升,也对算力提出了更高的要求。
作为自为自动驾驶汽车提供算力的地平线孵化而出的机器人团队,地瓜机器人在6月11日正式对外发布了新款算控一体开发平台RDK S100。
据地瓜机器人开发者生态副总裁胡春旭在会上介绍称,“大小脑协同是具身智能机器人的必经之路,基于大小脑协同异构架构设计的RDK S100,是行业内首款具备百TOPS算力的算控一体化机器人开发套件。”
这时,地瓜机器人刚刚完成1亿美元A轮融资,志在成为机器人时代的Wintel,打造机器人时代的CUDA。
01 端到端or大小脑?
根据IFR统计数据显示,2023年,中国工业机器人装机量为27.63万台,在全球装机量占比高达51%,这时的中国工业机器人装机量已经连续多年位居全球第一。
机器人并非一个全新的产业,在这波人形机器人爆火全球之前,人形机器人技术也已经发展了半个多世纪,非人形机器人更是在工业、仓储、餐饮、酒店等多个场景落地应用多年。
不同的是,2022年11月,ChatGPT的发布,成了机器人产业走向智能化、通用化的一个拐点。
基于“机器人行业与大模型进入到了一个互相渗透阶段”的判断,2024年,地平线将机器人事业部拆分而出,地瓜机器人由此而来。
2024年,机器人也已经不是一个新鲜事物,机器人运动控制链路由感知、决策和规划、动作控制和生成三大环节构成已经成为行业共识,但在具身智能实现路径上,却形成了端到端和大小脑两条不同的技术路径。
端到端技术路径以谷歌2023年7月对外发布的RT-2模型为代表,RT-2是一个完整的VLA(视觉-语言-动作)模型,研究人员只需通过语音给出指令,搭载RT-2的机器人就可以自动完成从视觉识别到动作执行的全过程。
不过,RT-2虽然通过把互联网上的视频作为辅助训练数据,在一定程度上提升了模型的泛化性,但由于谷歌团队最初进行数据采集的厨房里的场景相对固定,一旦在真实世界中遇到与训练数据有较大差异的场景,机器人就无法再精准执行任务。
用于训练VLA模型的数据严重不足,就成了当下端到端技术路径的瓶颈。
相较而言,地瓜机器人短期内走的是另一条路径,大小脑协同路径。
胡春旭借智元机器人提出的具身智能分级标准指出,“现在我们正处于从G2(任务编排)跨越到G3(认知推理和规划)的发展阶段,而大小脑协同技术将会是解决从G2跨越到G3发展阶段的关键方法。”
之所以有如此判断,是因为大小脑技术路线的本质是分层决策模型,其中,大脑负责理解和分解任务、制定任务执行策略,小脑负责具体的动作执行并反馈结果。
这一技术路线实现难度更低、可解释性更高,可控性也更好,与此同时,由于对于数据量要求较小,也在一定程度上规避了当下具身智能模型训练过程中数据量严重不足的问题。
正因如此,胡春旭指出,“我们认为,在三年之内,基于这种技术路径的机器人更容易在餐饮配送、酒店迎宾、无人驾驶汽车,乃至四足机器人、人形机器人数据采集环节实现规模化落地。”
那么,在这一阶段,机器人需要配备多少算力?又需要怎样的专用芯片?
02 大小脑需要怎样的计算单元?
6月11日,在深圳科创学院的地瓜机器人发布会现场,胡春旭对外展示了13个搭载地瓜机器人RDK S100套件的实际应用案例,我们在发布会现场看到了这个当下关注度颇高的应用案例——会跳舞的宇树G1。
自从宇树的人形机器人登上春晚舞台后,人形机器人跳舞的热度不断飙升,然而,要实现人形机器人精准的运动控制,仿真环境与现实世界之间的动力学差异是所有机器人团队都要面对的一大难题。
地瓜机器人不仅成功在RDK S100上部署了ASAP框架,结合Delta动作模型实现了宇树G1人形机器人在真实环境中的高效全身运动控制,还基于地瓜机器人独特的异构计算架构,大幅降低了模型部署的资源占用。
据悉,这次在BPU上进行模型推理时,模型推理占用率仅为2%,相较于纯CPU推理,CPU占用率降低了250%,这为机器人的视觉检测、目标识别、路径导航和智能决策等复杂任务留出了更多算力空间。
RDK S100是地瓜机器人此次正式对外发布的算控一体化机器人开发套件,胡春旭指出,“RDK S100解决的正是最先推动具身机器人实现产业落地的分层决策大小脑模型的算力需求。”
据胡春旭透露,“地瓜机器人是从市场需求出发,基于市场需求反向推导出具身机器人对SoC的具体需求。”
在当下的分层决策大小脑模型中,根据具体执行任务不同,大脑和小脑分别对算力提出了如下需求:
大脑执行的是视觉推理、感知计算、任务规划,这些任务不需要很强的实时性,但对算力有着很高的需求,目前行业中普遍采用CPU、GPU作为大脑的计算单元;
小脑接收来自大脑的运动指令,并将指令转化为实时动作,这些任务对实时性有着很高的要求,但并不像大脑那样对算力有着极高的需求,现在行业中普遍采用MCU作为小脑的计算单元。
为了为大小脑模型提供算力,目前市面上的主流方案是通过硬件分层——大小脑基于不同芯片分别提供算力,并通过外围总线进行连接。
作为面向具身智能场景推出的算控一体化机器人开发套件,RDK S100是在单一SoC上整合了包括用于通信和逻辑决策的CPU、用于模型推理的BPU,以及用于底层高频控制的MCU。
在RDK S100开发套件中,地瓜机器人通过6个Cortex-A78AE核心和针对Transformer优化的全新一代Nash架构的BPU构成了机器人的“大脑”,用于满足各类复杂决策和规划任务的计算需求,通过4个Arm Cortex R52+MCU组成的高性能“小脑”,用于进行机器人动作的实时响应。
地瓜机器人团队认为,这样的异构计算架构,是实现大小脑这一具身智能技术路径的最佳方案。
这其中最为独特是地瓜机器人由地平线授权而来的BPU。
由于CPU本身更适合做逻辑处理和任务调度,为了给机器人提供用于模型推理所需的大算力,地瓜机器人引入了BPU架构。
具体而言,在前文提到的宇树G1跳舞的演示案例中,人形机器人运动控制执行逻辑如下:
宇树G1的各个关节由宇树的驱动器来进行控制,驱动器之间的通信基于宇树开放的网络SDK实现,而这些SDK中的网络通信功能最终是由CPU提供算力;
此外,CPU作为中央处理器也会并行执行网络通信、实时查看模型推理结果等任务;
BPU作为超级计算单元,重点在于完成所有模型推理工作,让机器人各个关节在不同时刻形成特定运动序列,并最终经由CPU的调度将这个运动序列发送到各个关节执行动作。
据胡春旭在会上透露,“由此实现的人形机器人运动控制,相较于完全通过CPU进行模型推理,CPU实现了68%的计算资源释放。”
03 做具身智能时代的CUDA
2025年6月,是地瓜机器人独立运营一周年。
在这一年里,我们能够看到,依然不断有新团队涌入具身智能这一赛道。
地瓜机器人CEO王丛在发布会上称,地瓜机器人在这两年看到了三个大趋势:
第一,传统机器人智能化升级,包括扫地机器人、割草机器人、协作机器人等都在进行智能化升级;
第二,新机器人团队不断涌现,几乎每1-2个月,就会在诸如陪伴机器人、网球机器人、水下机器人等新兴领域有一些消费机器人团队出现;
第三,具身智能领域正在急剧发生着变化。
基于这三大趋势,王丛认为,“具身机器人赛道最终将会涌入成百上千家公司,背后需要百万级开发者群体支撑机器人生态,这就需要一家做infra(基础设施)的公司和平台支撑整个行业的发展。”
地瓜机器人的目标,正是成为这样一家机器人软硬件生态,做机器人基础设施提供商。
据悉,目前地瓜机器人已经从硬件芯片、基于芯片联合优化的操作系统,到算法仓库、支撑机器人算法迭代的云平台进行了全栈技术布局。
在芯片层面,面向低功耗和高性价比场景,地瓜机器人已经拥有5TOPS算力的RDK X3和10TOPS算力的RDK X5,面向高算力场景,地瓜机器人今天又发布了分别拥有80TOPS和128TOPS的RDK S100系列套件。
据悉,今年晚些时候,地瓜机器人还会进一步发布面向端到端技术路径应用、超过300TOPS算力的RDK S系列新品。
在具身算法层面,地瓜机器人已经与清华、浙大、上交大、深圳大学、香港大学、华中科技大学等高校建立了合作关系,面向智能导航、Locomotion、Manipulation、数据引擎四大领域进行关键算法突破和布局。
在具身机器人云平台层面,地瓜机器人在2025年打造了行业内最大的并行化具身训练场,并正在打造具身智能模型训练工具链,基于此来建立机器人开发范式。
据王丛透露,“基于这样的生态布局,地瓜机器人芯片出货量已经超过500万,服务下游机器人品类超过100个,并搭建起了拥有近10万开发者的机器人开发生态圈。”
这里不得不说,地瓜机器人是幸运的,背靠国内AI独角兽团队地平线,地瓜机器人拥有着其他机器人团队难以企及的雄厚资源。
而这也是地瓜机器人能够打造百TOPS级算力的RDK S100,并能将价格打到2499元的核心原因。
不过,地瓜机器人想要打造的不仅仅是RDK系列芯片,他们有着更大的野心。
就在此次发布会上,在接受媒体采访时,谈到同样在积极布局具身机器人赛道的英伟达,胡春旭指出:
“英伟达的伟大之处在于早早的构建了CUDA,为AI时代变革提供了一个基础平台,地瓜机器人现在在做的事很像十几年前英伟达在AI生态中做的事。
我们也希望,未来可以构建出类似英伟达CUDA的机器人生态。”
好文章,需要你的鼓励
微软研究院联合北京大学、清华大学提出"强化预训练"新方法,让AI在预测下一个词前先进行深度思考推理。该技术将传统的模式匹配升级为真正的逻辑推理,显著提升了语言模型的预测准确性和推理能力,为人工智能从"背诵"向"理解"的转变开辟了新路径。
上海交通大学与StepFun联合推出的OneIG-Bench是AI图像生成领域首个全维度评测基准,涵盖语义对齐、文字渲染、知识推理、风格化、多语言等六大维度,包含超过2400个测试案例。该研究对19个顶级AI模型进行了史上最全面的对比评测,发现GPT-4o综合表现最佳,Seedream 3.0在文字渲染方面独领风骚,揭示了当前AI模型的优势与不足,为未来技术发展指明了方向。
伊利诺伊大学研究团队开发了SAFFRON安全防护系统,通过创新的"多路分叉奖励模型"技术,让AI在面对恶意诱导攻击时能够实时进行安全筛选。该系统将AI安全防护的攻击成功率从89.7%降至40.9%,同时保持回复的自然性和多样性,为AI安全领域开辟了全新的"推理时计算"防护路径。
上海人工智能实验室等机构联合发布的最新研究,开发出能够像人类专家一样"阅读"化学分子图像的AI系统GTR-Mol-VLM。该系统采用模仿人类思维的"图遍历视觉思维链"方法,在处理含缩写的复杂分子图像时准确率达84.50%,比现有最佳方法高出约14个百分点,为药物研发和材料科学等领域的数字化转型提供了重要技术支撑。