有时候,我会坐下来,用Logitech推出的一款名为Muse的空间触控笔,在空中随意涂画一些奇特的图形。这些图形悬浮在半空中,只需轻点一下便会旋转起来——而这一切,都发生在我戴着Apple Vision Pro头显的过程中。
这种体验宛如魔法,然而Apple对这一领域的机遇却似乎出人意料地漠然。专注于3D创作的专业级空间工具在Vision Pro上几乎付之阙如,Apple也从未推出过适配该设备的空间版Pencil。这种"半成品"式的挫败感,正是Vision Pro——如今已发布超过两年、并迭代至第二代硬件——有时令人感觉"已死"的根源所在。
但事实并非如此。据Mark Gurman最新报道,Apple正在规划新一代Vision Pro,体积更小、重量更轻,但预计至少还需数年时间。与此同时,Apple搭载AI功能的智能眼镜预计最早也要到明年底才会亮相,而具备显示屏、可能融入部分Vision功能的版本则要更晚。
随着Apple WWDC开发者大会即将于下周登场,现在正是Apple全面释放Vision Pro及其诸多潜在可能性的最佳时机——不仅针对这款设备本身,也为其后续的一系列产品铺路,其中也包括AI应用。
尚未被充分挖掘的强大性能
我对空间计算的概念深感着迷,尤其是那种能够按需在周围浮现屏幕和应用的体验。然而Apple迄今为止所呈现的,不过是其全部潜力中极为有限的一部分。Apple日趋逼真的Persona虚拟形象,只是这些潜在可能性的冰山一角。
我之所以了解这些可能性,是因为我持续测评此类产品,并与那些探索尚不存在的解决方案的人保持深度交流。Vision Pro被普遍认为是蒂姆·库克时代Apple最大的产品失败——你身边有多少人真正拥有一台?但与此同时,它也被广泛认可为目前最先进的VR/AR设备。无论是搭载的M5处理器、精准的眼动追踪技术、覆盖远近距离的动作传感器,还是将现实世界融入透视视频的摄像头系统,样样都是业界顶尖水准。
问题在于,Vision Pro未能将这些技术整合为真正实用的专业工具,也没能在Apple预期推出的一系列AI可穿戴设备上提前探索解题思路。
我预计Apple将推出智能眼镜、配备摄像头的AirPods,乃至某种具有环境感知能力的挂件或徽章别针。但就目前而言,Vision Pro已是一款承载着众多潜在可能的真实产品——只要Apple愿意将其潜力真正释放出来。
不,源源不断的沉浸式3D电影和体育赛事内容,并不足以支撑一款售价3500美元设备的价值。但如果是借助高斯泼溅(Gaussian splatting)技术实现的极度逼真3D扫描,并在Vision Pro上呈现呢?又或者,是一个能够识别你头戴设备所处环境、并在多个项目并行时提供智能引导的AI助手呢?
视觉智能理应率先在Vision Pro上落地
摄像头感知AI,即多模态AI,正成为一个蓬勃发展的领域,各大主流AI平台都已在积极布局。Meta已将其整合进智能眼镜,谷歌与三星也将其融入现有的混合现实头显,并计划于今年年底前推出搭载该技术的眼镜产品。
谷歌与三星去年秋天发布了类似Vision Pro定位的Galaxy XR头显,用以探索全新交互形态,例如一种始终在线的Gemini Live模式,能够实时识别用户所处空间及正在使用的应用。如今,Apple已与谷歌达成合作,将Gemini引入Siri,这为Apple在自家硬件上开展类似探索打开了通道。
我对AI以何种方式介入我们在可穿戴设备中的感官体验既充满好奇,又心存顾虑——这不仅可能侵犯佩戴者自身的隐私,也可能影响周围其他人的隐私。而Vision Pro正是Apple进行这一探索的绝佳平台,可以充分利用头显的各类传感器和处理器,在智能眼镜、智能别针或智能AirPods正式推出之前,预先验证这些想法的可行性。
AI领域还有一个尚未成为主流智能体方向的小众分支——高斯泼溅技术,VisionOS应当对此投入更多探索。与Apple采用多镜头拍摄的立体沉浸视频不同,高斯泼溅可以利用AI将图像拼合,生成全息风格的图像与视频。Apple已在Vision系统中引入更多空间3D图层,Persona虚拟形象便是其中最具代表性的部分。但Vision Pro理应成为一套完整3D扫描工作室体系的核心,配合Apple在iPhone和头显上开发的专属应用,与现有的手机相机应用实现无缝衔接。
将Apple生态全面接入Vision Pro
Logitech Muse可以说是Apple本该推出却从未动手的Vision Pro触控笔。同样地,索尼PlayStation VR 2控制器也能与Vision Pro配对使用,解锁原本无法实现的游戏体验——毕竟Apple至今也没有推出自家的空间控制器。
这种现象在某种程度上情有可原,因为Vision Pro本质上是一款实验性产品,Apple惯于借助Logitech等合作伙伴来探索自己尚未涉足的外设方向——iPad键盘保护壳便是前车之鉴。
然而,Vision Pro至今仍无法与多款多年前便已面世的Apple产品实现无缝连接。AirPods可以与其配对,Mac可以通过它扩展显示器或将Mac应用串流至头显,但iPhone、iPad和Apple Watch却莫名其妙地被排除在外——除了通过AirPlay投射iPhone和iPad屏幕之外,几乎没有更深层的整合。
我希望能够将附近的iPhone和iPad应用分享至Vision Pro并扩展显示,让它像连接Mac一样,成为一台共享计算设备。这在技术层面没有任何障碍——iPhone级别的芯片如今已能运行macOS,MacBook Neo已然证明了这一点。既然如此,共享屏幕、扩展应用,乃至通过一台能识别所有设备的头显在不同设备间灵活切换,理应同样可行。
Apple Watch也许是被遗忘得最令人遗憾的一环:它本质上是一块佩戴在手腕上的控制面板,内置动作追踪功能,如果Apple愿意将其与Vision Pro打通,完全可以成为一个出色的交互界面。
为专业应用开辟通路
在我看来,Vision Pro最大的缺憾不在于价格,也不在于体积。而在于这款头显——即便搭载了M5处理器——在成为一台名副其实的"专业"计算设备方面,依然落后于Mac,甚至不及iPad。
何为"专业"?我指的是视频剪辑套件、音乐创作工具、3D图形软件——这些本应落地VisionOS、让用户实现Apple引以为傲的创意工作的应用。
这让我感到困惑,因为据悉Vision Pro正在被一些电影人用于片场,作为监看素材和3D模型的显示器。它理应是通往一切创作可能的完整入口。一块巨大的虚拟显示器与3D交互界面,本应支持我在Meta Quest 3这类性能远不及它的头显上见过的那种模拟与创作体验。
如果推动开发者打造高水准专业应用难度过大,而Apple自身也不打算亲自下场(从新推出的Creator Studio应用套件未包含任何Vision Pro优化便可见一斑),那么从Mac和iPad进行扩展与串流或许是一条可行的路径。VisionOS能够渲染来自Mac的3D内容,还可以借助注视点串流(foveated streaming)技术进行优化——这项技术仅在用户视线直视的区域呈现高分辨率画面,从而大幅降低渲染负荷。
为开发者开辟一条将Mac应用延伸至VisionOS的路径,或对iPad和iPhone同样开放这一能力,是势在必行的一步。否则,每当需要完成真正的专业工作时,我恐怕还是只能摘下Vision Pro。
Q&A
Q1:Apple Vision Pro目前支持哪些外部设备连接?
A:目前Vision Pro支持AirPods连接,也可与Mac配合使用来扩展显示器或串流Mac应用。此外,Logitech Muse空间触控笔和索尼PlayStation VR 2控制器也可与Vision Pro配对。但iPhone、iPad和Apple Watch目前与Vision Pro的整合非常有限,iPhone和iPad仅支持通过AirPlay投射屏幕,Apple Watch则几乎没有与Vision Pro的深度联动功能。
Q2:高斯泼溅技术在Vision Pro上有什么应用前景?
A:高斯泼溅是一种利用AI将图像拼合、生成全息风格图像和视频的技术,与Apple现有的多镜头立体沉浸视频不同。在Vision Pro上,这项技术可以创建极度逼真的3D扫描内容,未来有望结合iPhone相机应用,打造完整的空间3D扫描工作室体系,大幅拓展Vision Pro在创意创作领域的应用边界。
Q3:Vision Pro为什么缺乏专业创作工具?
A:尽管Vision Pro搭载了强大的M5处理器,但平台上目前仍缺少视频剪辑套件、音乐创作工具、3D图形软件等专业级应用。Apple新推出的Creator Studio应用套件也未包含任何Vision Pro优化内容。推动第三方开发者为VisionOS打造高水准专业应用难度较大,而将Mac或iPad应用扩展串流至Vision Pro,被认为是当前较为可行的过渡方案。
好文章,需要你的鼓励
今天讲的出海案例是晶方科技,这家传感器先进封装公司通过 WaferTek 在马来西亚建设生产基地,并把新增 3000 万美元投向设备和产线。
这项研究揭示了大语言模型执行演绎推理时,仅约3%的注意力头构成关键"逻辑电路",分工明确,层层协作,一旦关闭这些电路,AI推理能力即刻崩溃。
随着企业将预算向AI倾斜,并大量采用AI编程助手,持H-1B签证的软件开发者正面临日益收窄的就业空间。Meta、亚马逊等科技巨头的裁员潮使工程类岗位需求进一步萎缩,招聘方越来越倾向于具备机器学习、数据科学等AI相关技能的候选人。分析人士指出,AI工具正压缩初级开发者的成长空间,企业也更偏向雇用绿卡持有者和本地公民,H-1B开发者须及早规划签证策略与技能升级路径。
Clark Hash是一种无需训练的句子嵌入压缩工具,将384维向量从1536字节压缩至48字节,通过稀疏随机投影与标量量化实现32倍压缩,同时保持高相似度相关性。