早起快速刷了一下苹果的发布会,发现大多数人的评论是:还好没看。其实一开始刷了一些资讯后,我也这么觉得,但是再仔细点一看,发现有些评论认为Camera Control是最重要的创新,但还没有一篇文章,完整的单独针对Camera Control,去好好的写一下思考,是的,翻遍了全网我都没找到,干脆自己快速码一篇。
我看到很有意思的一个讽刺贴是这样:
-May I take a picture of your dog?
-Sure.
-Siri, what kind of dog is this?
推特上有100万的阅读,对应的评论区还有一张图:

那这篇文章我会换个角度,经常尝试多从几个维度抛砖引玉:

在上图中的C位,可以很明显的看到两个新iPhone里下面那台,在靠近左侧边框的位置有一个凹槽,这就是Camera Control的新按键,对于这个按键,其实拥有诸多的能力:
功能:
单击:打开相机应用或在已打开相机应用的情况下拍照。
点击并按住:开始录制视频。
轻按:这项功能将于2024年秋季晚些时候推出,可以锁定对焦和曝光在特定主体上。
双轻按:调出最小化相机预览菜单,用于选择不同的控制选项,如曝光或景深。
沿表面滑动:调节参数如缩放、曝光或景深。
设计和技术:相机控制按钮采用电容和压力感应技术,对基于触摸的手势反应灵敏。它被描述为一个触摸敏感按钮,甚至是一个微型触控板,允许进行各种交互,而不仅仅是按压。
也就是说,它的硬件设计是非常深度的,不是一个简单的按键。我们可以看一下:
这个按键的位置设计的还蛮好的,仿照的是数码单反相机上使用快门按钮的体验,它给人带来的惊喜可以看下面这个博主的评测:
这个按钮,更深层次是为了和视觉智能完成整合,达到人机“共生”。即:让手机摄像头最快捷的达到“所见即所得”,并让用户形成惯性。
发布会上苹果专门描述了Visual intelligence和Camera Control的整合,包含了这么几个场景:

进一步,苹果会开放这两个能力,给到第三方应用去做创新,再结合未来放到端侧的多个模型,还是非常值得期待的:

也有人拿它和TouchBar来对比,认为Camera Control失败的风险很大,这个点也挺有意思的,值得研究一下。
首先看TouchBar是什么:

Touch Bar 最早出现在 2016 年 10 月发布的第四代 Macbook Pro 上,全称 Multi-Touch Bar,中文名为“触控栏”。你可以理解为这是一块长条形的 OLED 屏幕, 除了固定的功能按键,还能自定义相关按键:

Touch Bar,是苹果历史上比较失败的设计,从出现到退场,仅仅 7 年。

失败的原因,事后来看,就是价值不大,那么小一块屏幕,能显示的内容有限,对应能适配的应用也更多只能是显示按钮,另外就是还需要用户改变自己的操作习惯,同时这些操作大部分又可以用键盘和鼠标代替。
我买的MBP是2015年的版本,恰好早了一代,当时看到2016款的TouchBar时还挺羡慕,但仔细想了想,就觉得意义不大,后面也没再关注了,没想到去年把它下掉了。
OK,说了这么多,其实总结来看,黄叔对于Camera Control是偏向于乐观的,因为相机拍照是个高频刚需场景,一个实体按键(入口)能大幅提高通向这个场景的使用概率,再叠加Visual intelligence,进一步的使用Camera Control去交互,这一点很厉害。

所以,单纯把Camera Control当成通向相机的入口,只是第一层,而把它作为通向视觉智能的入口,才是更深一层!
对于未来,黄叔感觉最重要的还是用户习惯+AI的融合,在X上看到这条推觉得说的不错:

使用物理实体按键启动相机作为视觉多模态入口,一旦用户习惯之后,AI的整合会更加丝滑的嵌入到具体的场景里。
我们不要老指望着AGI,难道AGI没来之前就没法做AI落地了么?苹果在用户理解和场景结合,以及端云整个AI策略的思考上,非常值得我们关注。
结合之前发布会苹果说的“ App Intents”,以及“ Apple as they layer AI on top of the entire OS.”,对于明年AI在手机的落地,我比较乐观。
在新的硬件形态成熟之前,手机仍然会是用户的AI中心设备,以苹果对于生态的整合能力,以及较强的AI落地能力,厚积薄发是我形容它的一个关键词。
我也和一些AI从业者交流,部分朋友是非常兴奋的,更多信息就不放出来了,很期待和大家的更多私下交流呀!
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。