让Siri"看见"你的世界:Vision Pro的AI视觉功能体验

苹果在WWDC发布的visionOS 26开发者预览版中,为Vision Pro带来了全新的Siri视觉智能功能。用户只需呼唤"嘿Siri",Siri便以3D发光球体形态出现,并能识别视野内的真实与虚拟对象,包括书架、应用窗口和虚拟时钟等。此外,visionOS 26还支持将全景照片转换为3D环绕背景。尽管目前仍是早期测试版,但已展现出苹果未来AR眼镜的巨大潜力。

在我的办公室里,书架上摆满了魔术道具,旁边是一扇俯瞰巴黎的全景窗——当然,这并不是真实存在的。这些都是我佩戴Apple Vision Pro头显时出现的混合现实叠加画面,它们被精准映射到我真实的窗户位置上。墙上还悬挂着一个虚拟时钟。

书架是真实的,巴黎窗景和挂钟则是虚拟的。但当我以一个发光球体的形式唤起Siri时,它能同时看到这一切。当我询问面前有什么时,Siri的文字回复框便将眼前的一切一一描述出来。

我首次佩戴Vision Pro、并在VisionOS 26开发者预览版中体验"全知Siri"的最初感受,既有些惊喜,又格外熟悉。此前我在三星Galaxy XR头显上也有过类似体验——那款设备已支持Gemini Live模式,能识别你所在的房间以及打开的虚拟应用和窗口。我也佩戴过多款带摄像头的智能眼镜,在四处走动时向AI询问周遭环境。

正如我此前预期的那样,Apple今秋将为Apple Watch、iPhone、iPad等一系列设备带来全面升级的Siri,并将视觉智能能力从iPhone扩展至更多平台。其中,Vision Pro上的Siri最令人着迷,也或许是最具野心的——它能在你需要时看见视野内的一切,就像一位感知伙伴。

这个在Apple WWDC上刚刚发布数日的早期预览版本并不完美,但其表现已足以让人窥见未来的方向。如今,能实现这一能力的眼镜产品感觉完全触手可及。与此同时,Vision Pro的辅助功能也将变得愈发有趣。

Siri的发光球体:随时准备"看见"

与iOS和iPadOS上通过相机应用启动的视觉智能模式不同,Vision Pro上的Siri只需你说出"Hey Siri"并提问,便可立即感知周围环境。

Siri以一个三维发光球体的形式出现,如同一位精灵般降临在我的房间里。你可以随意拖动它的位置,而那颗发光球体借助VisionOS的空间图形引擎,在我的桌面或房间里投射出真实的光影效果,视觉上颇为惊艳。

我只需说"Hey Siri,我面前有什么?"便能触发视觉智能功能——系统会发出一声新颖的提示音,随后根据眼球追踪技术,对我视线所及的区域进行快速视觉扫描。扫描范围相当广泛:它能看到我面前书架上满满的书籍,以及我摆放在那里的各种手办和玩具,还能读出几本书的书名,比如《漩涡》和《奇书》。

AI的反馈基于摄像头对眼前场景(无论真实还是虚拟)拍摄的静止画面,这与Meta智能眼镜或三星Galaxy XR上其他基于摄像头的AI的"拍摄-响应"节奏类似。

不过,它目前尚不具备那些设备所支持的实时连续识别模式,每次请求只能拍摄一张静态图像进行分析。

同时识别真实与虚拟物体

在我的桌面上,Siri成功识别出一台红色Virtual Boy虚拟现实头显和一台Steam Deck掌机,两者都是真实物品。随后,我将视线转向虚拟的巴黎窗景、墙上的时钟小组件以及装满魔术道具的书架,它同样一一识别了出来。

在这个早期测试版本中,Siri有时会在一段时间内停留在某个特定视角进行分析,除非我关闭Siri或移动发光球体重新尝试。当然,这也可能只是我还不够熟悉操作方式。

但我已经开始思考,如何借助这种视觉感知能力来提升工作效率。我让Siri总结一篇关于我近期剧本创作的备忘录——只需开口询问,它便调出了内容并提炼了要点。我还询问了MacBook虚拟屏幕上打开的浏览器窗口情况。(就在我通过Mac在Vision Pro中撰写这篇文章的此刻,Siri正在告诉我,我打开了一个Google文档窗口,里面写的正是Siri识别真实与虚拟物体的内容。)

将个人照片转化为全景三维背景

我还体验了VisionOS 26中的全景照片转换新功能——它能将你相册中的任意全景照片转换为可环绕包裹的三维背景,供你在工作时使用。

转换效果并不像Apple自家的沉浸式环境那样完全三维环绕,也没有动态效果或环境音效,更像是超大型的环绕式三维窗口,办公室的部分实景依然在边缘可见。

视觉效果相当美观,尽管并非所有全景照片都能成功转换(这还是非常早期的阶段,相信后续会逐步完善)。我调出了一张疫情期间探望母亲时在她后院拍摄的照片,现在每次启动时,那个场景便会迎接我,仿佛我又回到了那里。如果Vision Pro能像Meta Quest那样,支持从多张照片生成完全沉浸式的高斯泼溅场景,那就更完美了。

我不禁开始想象,Apple即将推出的智能眼镜将如何借助具有视觉能力的Siri实现辅助功能。但这或许有些超前了。目前,体验这一切需要一台售价3499美元的Vision Pro。然而,当Apple推出类似谷歌或Xreal Project Aura那样体积更小、价格更亲民的AR眼镜,当更多应用能够接入Siri的视觉框架时,一切将会如何演变?我感觉自己正站在未来的门槛上,满怀期待地向前张望。

Q&A

Q1:Vision Pro上的Siri视觉功能和其他设备上的视觉智能有什么区别?

A:Vision Pro上的Siri视觉功能无需进入相机应用,只需说"Hey Siri"并提问即可触发。它以三维发光球体形式呈现,能同时识别真实和虚拟物体,并结合眼球追踪技术扫描视野范围。不过目前每次请求仅能拍摄一张静态图像分析,尚不支持Meta眼镜或三星Galaxy XR那样的实时连续识别模式。

Q2:VisionOS 26的全景照片转换功能效果如何?

A:该功能可将相册中的全景照片转换为环绕式三维背景,用于工作时的视觉环境。效果介于普通大屏和完全沉浸式环境之间,没有动态效果或环境音效,办公室实景仍在边缘可见。目前并非所有全景照片都能成功转换,功能仍处于早期阶段,预计后续版本会持续完善。

Q3:Apple智能眼镜什么时候会推出类似Vision Pro的Siri视觉功能?

A:目前Apple尚未正式发布智能眼镜产品,体验Siri视觉功能仍需3499美元的Vision Pro。但随着谷歌、Xreal等厂商推出体积更小、价格更亲民的AR眼镜,加之Apple预计将推出类似产品,具备视觉感知能力的Siri有望在未来以更低门槛的硬件形态普及。

来源:cnet

0赞

好文章,需要你的鼓励

2026

06/15

15:38

分享

点赞

邮件订阅