2023年上半年,科技领域最热不过大模型;
2023年下半年,大模型开始集体“上山下乡”,进入行业、深入硬件。
端侧大模型,就是在这时开始成为一个重要研究方向。
这其中,谷歌在今年2月发布对标ChatGPT的Bard后,在前不久"made by Google"的硬件发布会上,正式将大模型相关技术下沉到了Pixel 8 Pro上。
“买手机送大模型”,也成了业界送给谷歌Pixel 8系列手机最好的推广文案。
Bard下沉到端侧
2016年,谷歌CEO Sundar Pichai在made by Google大会上正式宣布,谷歌从“Mobile First”转向“AI First”,AI由此成为了谷歌的主旋律。
仅仅一年后,谷歌就对外发布了为大模型埋下伏笔的Transformer架构,造就了后来OpenAI的崛起,以及如今大模型时代的到来。
同样是基于Transformer架构的Bard在今年2月正式发布后,行业内开始高度关注这一模型。
一是关注这一模型是否能够迎头赶上风头正盛的ChatGPT,二是关注谷歌将如何应用这一模型。
毕竟,谷歌有着世界上最优秀的工程师团队和工程师文化,曾在过往互联网热潮中,研发出了几乎统治了搜索引擎江湖的Google搜索引擎,在移动互联网时代,又凭借Android承载了移动互联网生态的半壁江山。
今年9月,就在谷歌这场硬件发布会之前,Bard产品总监Yury Pinsky在官方博客中透露,Bard已经可以连接到用户的Google应用服务,以实现针对用户本人的定制化AI服务。
在这篇博文中,他指出,Bard可以从用户每天使用的诸如Gmail、YouTube、谷歌云盘、谷歌地图等服务中获取信息,甚至可以跨应用获取信息,来提供千人千面的个人AI助手的能力。
例如,如果你和你的朋友正在筹备一场去大峡谷的旅行,你就可以通过自然语言与Bard交互,让它为你做这样一个规划。
Bard在收到指令后,会通过查阅Gmail邮箱中信息来找到适合每个人的出行日期,通过查找实时航班和酒店信息,和前往机场的谷歌地图路线,甚至观查阅机场活动的YouTube视频,来为你规划好整个形成。
同样是在这篇博文中,Yury Pinsky还提到了另一项功能——多人交互。
当有人通过向你分享了他与Bard的聊天时,你可以接着他的对话内容,继续与Bard交互。
显然,更符合这些功能的应用场景实际上是在移动端,这样的应用研究,正是谷歌在为Bard下沉到端侧做准备。
实际上,就在这篇博文发布两周后,2023年10月4日,谷歌"made by Google"硬件发布会在纽约正式召开。
在这场硬件发布会上,谷歌不仅发布了Pixel 8手机,还将大模型正式下沉到了端侧手机上。
端侧大模型,用处几何?
在今年的made by Google大会上,谷歌高级副总裁Rick Osterloh一上场就表示,“谷歌聚焦让AI变得对每个人都更有用。”
至于如何让AI变得对每个人都更有用,谷歌的做法是,做一款将软件、硬件和AI整合在一起的手机,也就是谷歌Pixel手机。
2023年大模型这么热,谷歌也在端侧大模型应用上做出了些花样。
首先,在和Fitbit联动时,生成式AI可以作为你的运动健康小助理,告诉你,你今天之所以跑步会比往常感觉更困难,是因为你今天选择的路线更崎岖、有更多的爬升。
与此同时,生成式AI还会根据你的问题,为你输出含有图表的详细分析报告。
其次,谷歌再次提及自家语音助手时,也特别强调加入引入了Bard。
Google Assistant负责人Sissie Hsiao在发布会上表示,引入Bard后,Google Assistant将个性化功能与大模型的推理能力、生成能力相结合,可以实现听、说、影响处理能力的全面升级。
Sissie Hsiao在发布会上通过一系列提问为我们展示了端侧大模型的功能:
1、她告诉手机上的Bard“查看本周所有未读邮件”,随后,Bard帮她整理出收件箱中未读邮件,并整理出相关邮件的概要,其中有一封关于派对邀请的邮件;
2、她接着问Bard“这个派对的地址在哪”,Bard通过访问手机上的谷歌地图,为用户提供出这一派对的具体位置;
3、她继续追问Bard“到这个派对需要多长时间”,Bard就会进一步在谷歌地图上给出路线信息。
与此同时,在手机上,Bard依然拥有大模型所有该有的文字处理和文字生成能力,这些能力也成了谷歌这代手机的一大亮点。
人均大模型时代开启
当然,在这场硬件发布会上,谷歌还公布了一系列其他加入AI魔力的实用功能。
例如可以让你免于骚扰电话侵扰的Call Screen。
当有电话接入你的手机时,你的语音助手会先请对方说明来意,如果对方也是一个机器人,阐述的信息被识别为垃圾信息,会主动回绝并将来电信息和相关来意一并显示在用户屏幕上。
例如可以为你用手机拍摄的视频消除背景噪音的Audio Magic Eraser。
当你视频中有不是你需要的背景噪音时,通过这一加入生成式AI能力的功能,可以直接将这些背景噪音擦除。
再比如,可以为你P图的Best Take。
当你在为朋友拍照时,只需要多拍几张照片,当有某个或某些人表情不到位或有闭眼时,通过这一功能就可以筛选其他合适的表情直接替换。
此外,谷歌在Pixel 8 Pro中通过融合更强大的摄像头、Tensor G3和计算音频的能力,引入了视频增强(Video Boost)功能,通过谷歌云端计算摄影模型对每一帧图像进行处理,从而得到更漂亮的视频。
也是在发布会上,谷歌Pixel产品总监Shenaz Zack也指出,“得益于谷歌数据中心模型(data center models),谷歌提升了Video Boost功能,改善了Google assistant的能力。”
这样看来,端侧大模型要想用起来,依然需要云端大模型提供助力。
Rick Osterloh指出,“谷歌人工智能团队正在尝试基于生成式AI改变现在我们看到的一切。”
尤其是输入法中的文字修正功能、长文章的摘要整理功能,未来在大模型的加持下,将会在潜移默化中逐渐被大家频繁使用。
对于谷歌来说,更重要的是,谷歌认为,Pixel 8 Pro是第一款搭载端侧大模型的手机。
这将注定让谷歌再次载入史册。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。