今年去CES的时候,一起逛展的同学聊起天,总会提起一个段子,那就是CES南馆叫成「华强北分馆」,或者「深圳分馆」、「大湾区分馆」。有数据为证:AI眼镜展区23个展位里有16个是中国品牌,人形机器人那边中国厂商的数量比美日韩欧加起来还多。华强北分馆当然是调侃,华强北不能代表中国AI硬件,这个称呼背后的意思是:密度太高了。
不过,密度高是结果,问题是怎么做到的?这个答案值得探究。
中国硬件的高密度创新,其实不只是CES上才被注意到的。我想起几个月前听过一期播客,挪威人形机器人公司1X的CEO Bernt Bornich聊珠三角。他说想不出全球还有哪能像这里一样快速做硬件:需要零件,街角就有加工店;东西坏了,过条街买元器件。美国有很好的材料科学家,能设计很好的磁铁,但缺那种知道「搅拌两小时后要往左不是往右」的老师傅。Bornich用了一个词叫process knowledge,工艺知识,这东西在珠三角是弥散的,到处都是。
要注意一下,Bornich没有解释所有疑问。他说的是硬件,CES南馆那些AI眼镜能实时翻译你听到的话、识别你看到的东西,光有供应链做不出来。CES同期深圳有场展,180款产品和拉斯维加斯同款。值得关注的是:展的不是产品本身,是让这些产品「AI」起来的那套东西。
这场展是阿里云办的,叫「阿里云通义智能硬件展」,1月8号在深圳开幕,220多家企业,1500多件展品,240多款全球首发新品。
这个展会,就构成了答案的另外一部分。

选择做底座
这几年大厂做硬件的不少,手机、音箱、眼镜、汽车,能下场的都下场了。阿里云在这场展会上的表态不太一样:「我们不做终端硬件的独立构建」,官方说法是「以软硬一体的融合理念,为广大硬件企业的产品创新提供技术及生态支持」。
翻译一下:你来做产品,我来做底座。
这个选择背后有一个商业逻辑的变化,值得展开说说。
以前硬件时代,大厂和中小企业的关系往往是零和的。市场就这么大,大厂做一款音箱,就挤掉一批小厂的份额;大厂做一款手环,小厂就得换赛道。双方的利益是对立的,大厂是压制者,小厂是被压制者。这种格局延续了几十年,从家电到手机到智能硬件,一直没变。
AI硬件时代,这个关系可以反过来。阿里云做底座,做的是终端背后的模型和工具。小厂卖得越多,接入阿里云模型的设备就越多,阿里云的数据飞轮转得越快,模型就越好,又吸引更多厂商接入。零和变成了共生,大厂从压制者变成了赋能者,小厂从被压制者变成了生态的一部分。
为什么会有这个转变?关键在于,AI时代的价值锚点变了。以前硬件公司拼的是供应链、渠道、品牌,这些东西是排他的,你有我就没有。现在拼的是谁的模型能力强、谁的生态完整,这些东西是可以共享的,甚至越共享越值钱。
阿里云透露了一个数据:通义大模型的多模态能力已经赋能超过15万家智能硬件厂商。15万家,这个数量级已经不是「合作伙伴」能形容的了。据了解,有一个说法是「过去是硬件定义功能,如今是智力定义物种」。以前你买一台电视,它的功能在出厂那天就定死了;现在一台接入大模型的电视,能力是可以进化的,取决于背后那个「智力」有多强。硬件变成了载体,智力才是灵魂。
这就解释了为什么阿里云选择做底座。做终端,一年能做几款?做底座,15万家厂商帮你做终端,每一款都是通义的载体。
那么问题来了:15万家厂商愿意接入,这个底座到底解决了什么问题?
底座长什么样
展会上阿里云发布了一个东西叫「多模态交互开发套件」。名字有点技术,但它针对的都是做AI硬件的人天天头疼的事。
第一是适配。芯片平台五花八门,ARM、RISC-V、MIPS,每换一个平台就要重新适配,工程量巨大。第二是成本。云端按token计费,用户用得越多厂商亏得越多,商业模式算不过来。第三是响应速度。用户说句话要等两三秒才有反应,体验很差。
阿里云这个套件的思路是把这些坑都填上。它把通义千问(语言)、通义万相(视觉)、通义百聆(语音)三款模型打包在一起,已经适配了30多款主流芯片,计费从按token改成按终端许可,端侧和云端做了协同优化,官方数据是语音交互时延1秒,视频交互1.5秒。
这里要额外说一下端云协同这个场景的痛点拆解,因为非常考验技术硬功夫,也和消费者体验息息相关。一款AI硬件往往要同时调用语音、视觉、语言多个模型,单个模型都不慢,但厂商自己对接,调度优化是个大坑。阿里云这个套件的思路是把多模型调度这件事做掉:端侧设备不用关心背后有几个模型、怎么配合,套件统一处理,该本地跑的本地跑,该上云的上云,调度逻辑已经优化好了。前面说的时延数据,靠的就是这个。
另一个细节值得注意。这个套件预置了十多款Agent和MCP工具,覆盖出行规划、生活服务这些场景。厂商不用从零开始搭能力,拿来就能用。套件还接入了阿里云百炼平台生态,支持A2A协议兼容第三方Agent,能力可以一直往上加。
这意味着什么?门槛降低了。以前做一款AI硬件,你得自己搞定芯片适配、模型调优、端云协同、成本核算,链条又长又复杂。现在这些阿里云帮你做了,你专注做产品就行。
15万家厂商能接入,靠的就是这个。
门槛降低了,产品涌现了。接下来的问题是:涌现出来的产品,什么样的能跑出来?
什么样的AI硬件能成功
阿里云研究院做过一个用户调研,样本量1000份,问的是「相比传统智能设备,AI赋能后最大的价值体现在哪里」。排第一的不是「更聪明」或者「功能更多」,是「个性化推荐与个性化服务」,占了40.9%。第二名是「解放双手、自动完成任务」,占28.1%。
这个结果挺有意思。用户对AI的核心期待不是技术有多先进,而是设备能不能理解我。真正的「智能」是被理解,功能堆再多也没用。
这也解释了为什么AI眼镜在传统电商平台的退货率能到30%以上,抖音渠道甚至40%-50%。用户买的时候冲着「AI」来的,用了两天发现还不如手机上装个App,就扔一边吃灰了。停用跟价格没关系,体验和价值不匹配才是原因。
展会上有几个案例,可以作为范本,让大家进一步感受这个产品设计逻辑。
先说儿童AI伴侣Mooni M1,听力熊和阿里云联合做的,外形像个小夹子,主打给小孩当聊天对象。听力熊的人说了一句话:这一代小孩是「AI原住民」,传统的复读机和电子词典满足不了他们了。我们这代人是从「没有AI」长到「有AI」的,对AI的预期是「它能帮我做什么」;但10后小孩从出生就活在AI的世界里,他们的预期是「它应该懂我」。两种心态完全不一样。我得到的一个数据是,接入通义大模型之后,用户AI互动时长人均达到3小时。小孩愿意跟它聊3个小时,没有哪个小孩愿意跟复读机聊3个小时。

再说AI吉他TemPolor Melo-D,趣丸科技和阿里云一起做的,琴弦会发光提示你下一个该按哪,不会乐理的人也能跟着灯光弹出完整曲子。它懂的是你想怎么玩音乐,而不是逼你学乐理。

还有理想汽车的座舱,底层接的是阿里云。我得到的一个信息是,当乘客说「我有点冷」的时候,车端模型会在2毫秒内从阿里云支持的记忆系统里调取这个用户的习惯数据,然后调到「他喜欢的温度」。2毫秒,比眨一下眼睛快100倍。

这三个案例有一个共同点:能成的AI硬件,聪明不聪明不重要,懂不懂你才重要。用户要的是「被AI理解」,光「能用AI」没意思。
回头看CES南馆那些中国AI硬件,能批量冒出来,Bornich讲的是一半原因:珠三角有全球最快的硬件迭代速度,有弥散的工艺知识,有最密的供应链。这是硬件层。
另一半在阿里云深圳这场展上:平台愿意把模型能力开放出来,做成基础设施,让千万家厂商都能用;有从芯片适配到端云协同的完整工具链;有从儿童陪伴到音乐创作到智能座舱的场景验证。这是AI层。
两层叠加,硬件的效率加上AI的能力,才有了CES深圳分馆的场面,也有了1月11日阿里云通义智能硬件展在深圳的圆满收官。太平洋两岸,我们看到了产品的群像,更看到了底座的力量。
消费者也响应了「硬件层」和「AI层」双剑合璧的召唤。我看到阿里云的朋友在朋友圈写到,由于报名人数远超场地容纳限制,所以只能忍痛提前结束报名通道,这就是模型时代的双向奔赴吧。
好文章,需要你的鼓励
谷歌Agent Development Kit(ADK)革新了AI应用开发模式,采用事件驱动的运行时架构,将代理、工具和持久化状态整合为统一应用。ADK以Runner为核心,通过事件循环处理用户请求、模型调用和外部工具执行。执行逻辑层管理LLM调用和工具回调,服务层提供会话、文件存储等持久化能力。这种架构支持多步推理、实时反馈和状态管理,为构建超越简单聊天界面的生产级AI应用提供了完整框架。
上海AI实验室联合团队开发RoboVIP系统,通过视觉身份提示技术解决机器人训练数据稀缺问题。该系统能生成多视角、时间连贯的机器人操作视频,利用夹爪状态信号精确识别交互物体,构建百万级视觉身份数据库。实验显示,RoboVIP显著提升机器人在复杂环境中的操作成功率,为机器人智能化发展提供重要技术突破。
苹果在iOS 26中推出全新游戏应用,为iPhone、iPad和Mac用户提供个性化的游戏中心。该应用包含五个主要版块:主页展示最近游戏和推荐内容,Arcade专区提供超过200款无广告游戏,好友功能显示Game Center动态并支持游戏挑战,资料库可浏览已安装游戏并提供筛选选项,搜索功能支持按类别浏览。iOS 26.2版本还增加了游戏手柄导航支持,为游戏玩家提供更便捷的操作体验。
英伟达研究团队提出GDPO方法,解决AI多目标训练中的"奖励信号坍缩"问题。该方法通过分别评估各技能再综合考量,避免了传统GRPO方法简单相加导致的信息丢失。在工具调用、数学推理、代码编程三大场景测试中,GDPO均显著优于传统方法,准确率提升最高达6.3%,且训练过程更稳定。该技术已开源并支持主流AI框架。