在2024年的Meta Connect大会上,Meta宣布了多款新产品和更新,包括Orion AR眼镜的原型、Quest 3S VR头显以及Ray-Ban智能眼镜的更新等。
Orion AR眼镜原型:
最引人注目的可能是Orion AR眼镜原型的展示。这款眼镜代表了Meta在AR领域的最新进展,Orion AR眼镜的设计接近于日常佩戴的眼镜,有着时尚的厚框外观,重量轻,便于长时间佩戴。
在显示技术上,Orion采用了碳化硅镜片和先进的光波导技术,结合Micro LED投影仪,提供了70度的视场角,这在小型AR眼镜中是前所未有的,为用户提供了更为沉浸式的体验。这种显示技术不仅能够提供清晰的图像,还允许用户在保持对现实世界感知的同时与数字内容进行交互。
Orion的交互系统结合了语音识别、眼动追踪和手部追踪技术,并配备了一个基于肌电图(EMG)的腕带,这个腕带能够识别用户的手势,提供免提操作的便利。
为了实现更轻便的眼镜本体和无线体验,Orion还配备了一个便携式无线计算模块,负责处理图形渲染和通用任务,并将处理后的数据无线传输到眼镜上。这种设计使得Orion能够在保持时尚外观的同时,提供强大的AR功能。
Orion AR眼镜目前还是原型阶段,不会立即向消费者市场投放,但Meta计划继续优化产品,提高AR显示质量,减小外形尺寸,并降低成本,以便未来能够大规模生产并推向市场。Orion有望成为连接数字世界与现实世界的重要设备,为用户提供全新的交互体验。
Quest 3S VR头显:
Meta发布了新的Quest 3S VR头显,这是一款面向入门级市场的新产品,旨在取代之前广受欢迎的Quest 2。该设备继承了Quest 3的设计和技术,但价格更加亲民,128GB版本售价299.99美元,而256GB版本售价399.99美元,将于10月15日上市。
在外观设计上,Quest 3S继承了Quest 3的彩透摄像头,并支持彩透穿透模式,同时配备了Touch Plus处理器和手势追踪功能,为用户提供了更加自然和丰富的交互体验。显示方面,虽然它采用了与Quest 2相同的1832 x 1920单眼分辨率和120Hz面板,但其视觉体验并不逊色,配备了菲涅耳镜片,提供了96° x 90°的可视角度,并且色域覆盖率达到了100% sRGB。
性能上,Quest 3S搭载了高通骁龙XR2 Gen 2处理器和8GB RAM内存,确保了流畅的运行体验,而内置的4324mAh电池可以支持最长2.5小时的使用时间。此外,Quest 3S改进了VR透视功能,用户可以在虚拟环境中看到现实世界的情况,并通过增加一个专用按钮来快速开启或关闭透视模式。
Meta将Quest 3S定位为一款多任务处理计算机,强调其不仅仅是游戏机,而是能够完成一般计算机能做的各种任务。在演示中,Meta展示了该设备能够同时运行多达四个应用程序,如观看YouTube视频、浏览网页、听音乐以及访问Meta的应用商店。
Meta正在简化其VR产品线,随着Quest 3S的推出,Quest 2和高端的Quest Pro将停止销售,Quest 3S将作为新的入门级产品推向市场。这款设备以其亲民的价格和卓越的性能,有望成为入门级VR市场的新宠,并为虚拟现实行业的发展注入新的活力。
Ray-Ban智能眼镜更新:
Ray-Ban智能眼镜新增了实时AI视频处理功能,用户可以直接向眼镜提出问题,眼镜会通过Meta AI实时口头回答用户的问题。此外,还增加了实时语言翻译功能,能够将用户所听到的语言(如法语、意大利语或西班牙语)翻译成英语,未来还将支持更多语言。
Ray-Ban智能眼镜还获得了提醒功能,可以帮助用户记住他们所看到的事物,例如购物清单上的物品,或者停车位置等信息。同时,眼镜还支持扫描二维码,提供实时视频帮助,以及多语言之间的实时翻译。
除了AI功能的增强,新款Ray-Ban智能眼镜还集成了音频平台,让用户可以通过眼镜内置的扬声器直接听音乐。此外,还推出了新的变色镜片选项,这些镜片可以根据紫外线光的变化自动调整,以适应不同亮度的环境。
在款式方面,Ray-Ban智能眼镜增加了新的镜框设计,如限量版透明框架眼镜,为用户提供了更多的个性化选择。现有的雷朋Meta眼镜允许用户拍摄照片和视频,实时在Instagram上直播,以及接听视频通话。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。