作者| 金旺
栏目| 机器人新纪元
2023年的硬科技领域格外火热,尤其是人形机器人领域,在各地政策推动、基金扶持下,人形机器人吸引了几乎所有硬科技领域投资者的目光。
在大模型加持下,具身智能让人形机器人进一步吸引了人工智能领域的投资者入局。
市场如此火热,自然也吸引了越来越多团队带资入场。
作为国内人工智能领域明星团队,科大讯飞在今年显得格外耀眼,不仅发布了讯飞星火认知大模型,还在加紧推动讯飞星火大模型进入制造、医疗、教育等场景。
作为本就投资了云迹、优必选等机器人领域独角兽企业的科大讯飞,自然也不会错过这次入局人形机器人领域的机会。
就在今天(10月24日)的科大讯飞1024开发者节上,科大讯飞人形机器人正式对外亮相。
01 入局人形机器人
2022年1月,在这一年的科大讯飞年会上,科大讯飞董事长刘庆峰正式启动了“讯飞超脑2030计划”,而这也正是科大讯飞进军机器人领域第一个长线计划。
在这份计划中,刘庆峰将科大讯飞入局机器人领域的整体布局分为三步:
第一步,2022-2023年,针对医疗、教学、健康等领域的底层技术,实现软硬一体机器人和数字虚拟人的制造;
第二步,2023-2025年,实现自适应行走的外骨骼机器人,让外骨骼机器人进入人类生活;
第三步,2025-2030年,实现懂知识、会学习、能进化的陪伴机器人、自主学习的虚拟人,让拥有机器人拥有交互、动作,推动机器人进入家庭。
2023年作为“讯飞超脑2030计划”的关键一年,刘庆峰在今年1024开发者节的开幕式上表示:
“科大讯飞在2022年1024开发者节上发布的AIBOT机器人超脑平台,如今已有工业、教育、服务、特种等领域372家企业的开发者在用我们这一平台。”
与此同时,刘庆峰还在现场官宣了科大讯飞人形机器人的发布。
他表示,“现在通过将认知大模型与具身智能、运动智能结合起来,将进一步助力我国机器人进入高阶的智慧迭代。”
也是在这次大会上,我们现场看到了科大讯飞的人形机器人。
据科大讯飞官方介绍,基于“视觉-语言-动作”多模态具身智能大模型,人形机器人将有如下表现提升:
复杂任务拆解准确率提升了95%,开放场景物体寻找成功率提升了85%,强化学习泛化抓取成功率提升了30%,强化学习仿人行走能力提升了30%,运动能耗降低了20%。
02 具身智能的潜力
2023年3月,在全球掀起ChatGPT、大模型热潮后,OpenAI转而投资了挪威一家人形机器人公司1X Technologies,这让拥有本体的大模型的具身智能概念再次风靡。
就具身智能的研究而言,我们看到斯坦福李飞飞教授团队在今年7月公开一项具身智能研究项目,项目中,接入大模型的机器人可以根据人类发出的语言指令,完成各种动作。
谷歌旗下DeepMind团队随后也发布了名为Robotics Transformer 2的视觉-语言-动作模型。
巧合的是,早在2015年,科大讯飞就曾在国内投资一家人形机器人公司,这家公司就是极有可能成为国内人形机器人第一股的优必选。
这让科大讯飞在人形机器人上有了一个很好的标定,而在这一切背后,其实都要基于人工智能的突破、大模型的出现。
科大讯飞是在今年5月6日发布的讯飞星火大模型,如今,经过三次版本迭代后,刘庆峰表示,最新发布的讯飞星火V3.0已经可以对标ChatGPT,并做到了“中文超越,英文相当”。
此次科大讯飞发布的讯飞星火V3.0在文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力在内的七大能力上都得到了一定程度上的提升。
具体而言,在代码能力上,讯飞星火V3.0在项目级的理解上得到了优化,已经能够对代码进行综合的理解性的理解。
例如,它现在已经可以理解你这样的prompt:用python通过代码来花一个大大的心形,然后里面大大小小的五颜六色的很多星星逐渐呈现出来。
在英文书写能力上,现在的讯飞星火大模型已经可以基于各种人设来输出Native的写作和对话。
在多模态能力上,现在的讯飞星火大模型已经能够实现指令理解和跟随,以及细节表达上有了一定的提升,这样的能力提升也是机器人能够在复杂场景中很好地运动的关键。
根据国研经济研究院今年开展的一项关于大模型行业应用能力测评的研究中,讯飞星火3.0在医疗、法律领域的中文知识和语言理解能力已经分别超越了GPT4表现5.3%和4.1%,在教育领域基础能力的表现与GPT4的表现差距小于1%。
这让讯飞星火V3.0得以成为科大讯飞推出的各类机器人的“灵魂”所在。
03 科大讯飞的硬科技
2023年是大模型异军突起的一年,这一年,随着各类大模型的不断涌现,算力变得尤为稀缺。
这时,科大讯飞拉来华为站台。
在今年的1024开发者节上,科大讯飞正式发布了联合华为打造的基于昇腾的大模型底座“飞星一号”平台,并官宣了更大参数规模的讯飞星火V4.0大模型训练也正式启动。
作为两个国家队的一次重磅合作,刘庆峰满怀激情地表示,讯飞星火V4.0将在明年上半年发布,届时将正式对标GPT4。
实际上,就在今年,科大讯飞已经联合华为团队在半年时间内通过孵化大模型融合算子、多维度分布式并行、算-网-存系统级的智能运维,以及基于CANN联合深度优化,实现了讯飞星火大模型训练和推理效果的翻番。
而这些,都是科大讯飞进一步进入机器人领域、深入研究具身智能的基础。
就机器人产业布局而言,科大讯飞不仅发布了人形机器人,还发布了(轮式)家庭陪伴机器人机器人,甚至闯入了已经红海市场的扫地机器人领域。
在大会场外的展馆中,我们也看到了科大讯飞这些机器人产品。
2023年是科大讯飞“讯飞超脑2030计划”的关键一年,也是科大讯飞大步迈入机器人领域的一年。
这一年,在大模型的加持下,科大讯飞已经借具身智能深入到了机器人领域。
而进入人形机器人领域,尤其是带着讯飞星火大模型入局人形机器人领域,科大讯飞也将为人形机器人行业带来一波巨浪。
好文章,需要你的鼓励
谷歌Agent Development Kit(ADK)革新了AI应用开发模式,采用事件驱动的运行时架构,将代理、工具和持久化状态整合为统一应用。ADK以Runner为核心,通过事件循环处理用户请求、模型调用和外部工具执行。执行逻辑层管理LLM调用和工具回调,服务层提供会话、文件存储等持久化能力。这种架构支持多步推理、实时反馈和状态管理,为构建超越简单聊天界面的生产级AI应用提供了完整框架。
上海AI实验室联合团队开发RoboVIP系统,通过视觉身份提示技术解决机器人训练数据稀缺问题。该系统能生成多视角、时间连贯的机器人操作视频,利用夹爪状态信号精确识别交互物体,构建百万级视觉身份数据库。实验显示,RoboVIP显著提升机器人在复杂环境中的操作成功率,为机器人智能化发展提供重要技术突破。
苹果在iOS 26中推出全新游戏应用,为iPhone、iPad和Mac用户提供个性化的游戏中心。该应用包含五个主要版块:主页展示最近游戏和推荐内容,Arcade专区提供超过200款无广告游戏,好友功能显示Game Center动态并支持游戏挑战,资料库可浏览已安装游戏并提供筛选选项,搜索功能支持按类别浏览。iOS 26.2版本还增加了游戏手柄导航支持,为游戏玩家提供更便捷的操作体验。
英伟达研究团队提出GDPO方法,解决AI多目标训练中的"奖励信号坍缩"问题。该方法通过分别评估各技能再综合考量,避免了传统GRPO方法简单相加导致的信息丢失。在工具调用、数学推理、代码编程三大场景测试中,GDPO均显著优于传统方法,准确率提升最高达6.3%,且训练过程更稳定。该技术已开源并支持主流AI框架。