作者| 金旺
栏目| 具身资讯
近日,在民营企业座谈会上,宇树科技创始人王兴兴指出,“今年年底之前,整个AI的人形机器人会达到一个新的量级。”
作为国内人形机器人明星企业,在2024年9月完成C轮融资后,宇树科技估值已经突破80亿元。
不过,宇树科技的人形机器人真正在大众层面得到广泛认知,是在今年春晚上。
在今年春晚上,宇树科技16台人形机器人H1与新疆艺术学院舞蹈演员表演的舞蹈节目《秧BOT》,作为今年春晚的特色之一,迅速让人形机器人闯入大众视野。
与此同时,人形机器人在人工智能技术加持下,确实在以肉眼可见的速度发生着改变。
01 机器人跳舞太“丝滑”,被质疑为AI生成
近日,一个宇树人形机器人G1的跳舞视频在网上爆火,在视频中,从机器人跳舞的稳定性、流畅度,以及自然程度上来看,都很难想象是现阶段人形机器人能够实现的能力。
毕竟,宇树人形机器人在春晚舞台上还曾因被舞蹈演员“扶着”下台被主持人调侃。
这段人形机器人跳舞视频发布后,在视频平台上被算法识别并自动打上了“疑似使用AI技术生成”的提醒标签。
为了证明人形机器人跳舞的真实性,宇树科技官方昨日在视频平台上又更新了一个视频,视频中,宇树G1跳的依然是之前的舞蹈,不同的是,镜头侧面放置了一面全身镜实时显示周边环境,并时不时由旁边的员工给他丢个球、来两下,进行干扰。
在这则视频中,宇树科技官方也对上一个视频中提到的“算法升级,任意舞蹈任意学”的说法给出了解释:
“最近几天刚开发好的功能,还没有推送给客户,不同型号版本的机器人功能也有差异。”
这一方面证实了机器人跳舞的真实性,另一方面也对客户手中的机器人没有这个功能给出了一个交代。
据悉,宇树科技的人形机器人在今年登上春晚后不久,就曾直接在京东平台上开售H1和G1两个型号的人形机器人,前者售价65万元,预计60天交货,后者售价9.9万元起售,预计45天交货。
然而,这两款产品在上线不久后就进行了下架,如今依然需要通过官方渠道进行购买。
值得注意的是,宇树科技这款人形机器人此前在京东线上页面显示整机重约35kg,身高127cm,续航为2—4小时,主要面向场景为娱乐陪伴。
对于希望在2025年实现量产的人形机器人产业而言,面向消费市场的娱乐陪伴场景,显然是一个更广阔的量产市场。
不过,王兴兴在近日接受媒体采访时指出:
“今年年底之前,整个AI(驱动)的人形机器人会达到一个新的量级,如果顺利的话,诸如服务业、工业等基础场景到明后年就可以推起来了,但家用(场景)会慢一点,因为家用对安全性的要求更高,需要技术相对更成熟一点。”
02 人形机器人产业继续竞速
在宇树人形机器人登上春晚,马斯克号称Optimus将要量产的2025年,人形机器人仍在竞速。
就在近日,我们看到,美国人形机器人明星企业Apptronik官宣融资3.5亿美元(约25.5亿元),国内也有初创公司灵宝CASBOT完成了亿元天使轮融资。
在技术迭代方面,逐际动力近日发布了LimX VGM具身机器人操作算法,据官方公开资料显示,这是一个基于视频生成大模型的具身操作算法,通过人类操作视频数据对现有的视频生成大模型进行后训练,仅需将场景图片和操作任务指令作为提示Prompts,即可实现任务理解与拆分、物体操作轨迹生成以及机器人操作执行的全流程,全过程零真机样本数据,并且可实现多平台泛化。
加速进化Booster T1也在近日公开了耐用性和撞击测试视频,在官方公开的视频中,Booster T1人形机器人在表演完“胸口碎大石”后,依然可以再次起身。
不过,在这一系列人形机器人企业融资、技术创新背后,人形机器人产业竞争也在加剧。
2025年不仅是人形机器人步入量产的关键一年,也将会是人形机器人大浪淘沙的一年。
好文章,需要你的鼓励
这项来自麻省理工和滑铁卢大学的研究质疑了在AI文本排序中"思考过程"的必要性。研究者比较了三种文章重排模型:直接判断的StandardRR、先推理再判断的ReasonRR,以及禁用推理功能的ReasonRR-NoReason。实验结果表明,不仅推理过程没有提高排序质量,有时甚至会降低效果。主要原因是推理导致模型倾向于极端判断,难以表达"部分相关"这种微妙关系。即使应用"自洽性"等改进技术,简单直接的判断方式仍然更为高效有效。研究为信息检索系统设计提供了新视角:有时,少即是多。
TAGS是一种创新的医学问答框架,结合了泛医和专医两种视角,通过层次化检索和不确定性验证机制提升医学AI回答的准确性。该框架由穆罕默德·本·扎耶德人工智能大学等机构的研究团队开发,无需任何模型微调即可显著提升包括GPT-4o和DeepSeek-R1在内的大型语言模型在九个医学问答基准测试上的表现。TAGS通过模拟医疗专家协作、结构化知识检索和质量控制,解决了现有方法在复杂医学推理中的短板,为构建更可靠的医学AI系统提供了新思路。
这篇研究提出了时间抽象值学习(OTA)方法,解决离线目标条件强化学习中的长期规划问题。研究团队发现现有分层方法失败的关键在于高层策略无法生成合适子目标,原因是价值函数在长期规划中估计不准确。OTA通过"选项"概念实现时间抽象,有效缩短规划视野,使价值函数能提供更准确的优势信号。在复杂迷宫导航和视觉机器人操作任务中,OTA显著优于现有方法,证明了该方法在处理长期任务时的有效性。
这项研究探索了大语言模型内部可解释特征的形成过程,分析了它们在训练过程中(时间)、模型层级间(空间)和不同规模模型(尺度)的行为变化。研究团队使用稀疏自编码器技术,成功识别出特定语义概念在神经激活中出现的时间点和位置。研究结果显示,不同领域的知识概念在模型训练和规模扩展中存在明确的激活阈值,且在空间分析中发现了早期层特征会在后期层重新激活的现象,这挑战了对变换器模型表示动态的传统认知。