AI 赋能机器人及 Optimus 进展成为双主线。
人形机器人产业趋势的共 识在多轮行情中逐渐形成,呈现 AI 技术发展+产业巨头加持+政策支持的 三重共振,AI 赋能机器人及特斯拉 Optimus 进展也成为板块的双主线。 多模态视觉语言模型与机器人的结合超大众预期。2023 年 12 月特斯拉发 布 Optimus Gen-2 的视频,相比于第一代 Optimus 人形机器人,第二代 Optimus 增加六维力传感器、触觉传感器,进步明显,速度快 30%、重量 减轻 10kg。
机器人加速国内传感器行业发展,国内传感器厂商为机器人蓄力。
机器人 了解周围环境需要广泛的信息,传感器是重要的“中介”,是机器人软硬 件结合关键步骤之一,人形机器人需要的传感器种类众多,包括但不限于 触觉/力/扭矩/视觉/惯性等传感器,传感器技术涉及物理、电子、材料学 等多种学科融合,存在极高的技术壁垒,因此过去在传感器市场中占据一 席之地的更多是国外厂商。行至今日,国内众多优秀的传感器公司如雨后 春笋般出现,如发布多维触觉传感器的帕西尼、具备全方位 3D 视觉产业 链技术的奥比中光、具备玻璃微熔拉压力传感器技术的安培龙等,国内传 感器厂商有望在人形机器人浪潮中充分受益。
机器人行业已呈现 AI 发展&产业巨头&政策支撑三重共振特性,在产业起点积蓄 力量。多模态大语言模型的出现,代表人形机器人“大脑”层面难题取得突破。同时 2022 年以来产业巨头陆续入局,中、美等国政策支持也相继推出,在三重共振下,人形机器 人有望形成类似于汽车、智能手机的全球性产业链。
第一:AI 技术发展。通用人工智能大模型是实现“具身智能”的关键一环,近年人工智 能快速发展,机器人装上“大脑”成为可能。机器人的大脑需要解决解理、决策、执行 三个层面的问题,以 ChatGPT3.5 为代表多模态大语言模型解决了机器人理解人类语言 和外部世界的问题;谷歌 RT-1 模型以图片序列、自然语言指令作为输入,是一种视觉- 语言模型(VLMs),展现了较强的泛化能力和鲁棒性,主要解决了前两个层面的问题;而 谷歌 RT-2 模型则是基于视觉-语言-动作模型(VLA)的端到端模型,加入了动作模态, 提高了机器人的泛化能力、涌现能力和策略的完成率。RT-2 已经足够具身化,将机器人 执行层的感知、任务拆解、硬件驱动实现了 AI 化。
第二:产业巨头入局。自特斯拉机器人亮相以来,全球产业巨头纷纷布局人形机器人领 域。特斯拉作为行业引领者,于 2022 年 9 月 30 日举办的 AI DAY 上首次公开展示人形 机器人;2023 年年初,三星向本土机器人厂商 Rainbow Robotics 投资 590 亿韩元,约 合人民币 3.19 亿元;2023 年 3 月,OpenAI 领投挪威机器人公司 1X Technologies;2023 年 5 月,NVIDIA 创始人黄仁勋表示下一波人工智能浪潮是具身智能(embodied AI); 谷歌在推出有 5620 亿参数的 PalM-E 模型后,其旗下 AI 团队 DeepMind 在 2023 年 6 月 20 日展示了用于机器人的 AI 智能体 RoboCat,并于 7 月发布机器人大模型 RT-2;2024 年 3 月,黄仁勋在机器人大会上公布其 GR00T 项目,推出人形机器人通用基础模型 Project GR00T 和一款基于 NVIDIA Thor 系统级芯片(SoC)的新型人形机器人计算平台 Jetson Thor。
第三:政策支持,中美共振。2022 年以来国内人形机器人相关政策频出,北京、上海、 深圳等地都出台了推动产业发展的地方性政策。2023 年 10 月,工信部印发《人形机器 人创新发展指导意见》,将人形机器人提升到与计算机、智能手机、新能源汽车同等的战 略高度,并表示人形机器人有望在 2027 年成为经济增长的新引擎。美国方面,2024 年 3 月,美联储半年度货币政策提出,未来几年美国可能快速采用人工智能和机器人等新 技术,有望提高生产力增长速度。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。