近日,消费级AR领先品牌雷鸟创新宣布推出AI智能照片转换功能(2D->3D)。该功能采用了雷鸟创新全自研的图像三维渲染AI算法,支持一键将普通二维照片转化为层次分明、动感立体的3D空间图像,并在雷鸟Air系列AR眼镜上展示出来,让用户仿佛置身于照片拍摄现场,还原最真实的视觉体验。
在空间计算时代背景下,3D内容的意义变得更加丰富和重要。然而,以前要完成3D内容创作,往往需要专业的拍摄设备和显示设备才能完成,实现难度较高。AI智能照片转换功能打破了这一传统限制,使得3D照片创作不再依赖专业设备,不管是用户日常随手拍摄的照片、还是历史相册中的老照片,都可直接通过AI转换为栩栩如生的空间照片,实现二维图像的3D化。
AI智能照片转换功能是业内首个端云结合的AI空间照片转换应用。依托于端侧的AI能力,AI智能照片转换功能可在手机本地快速完成3D效果转换。同时,用户还可选择将照片上传至云端,生成精度更高、效果更佳的3D空间图片。云端图像智能AI算法可精准估算遮挡区域范围,并对背后区域做内容填充,让生成的空间照片在分辨率、可调节深度范围、旋转角度以及遮挡区域填补等视觉呈现上实现质的飞跃。
AI智能照片转换功能可对图片场景进行景深估算,并将三维视角变换渲染出对应的双目视角,搭配上具备空间显示能力的雷鸟Air系列AR眼镜,层次分明、动感立体的3D空间图像即刻跃然眼前,仿佛身临其境一般。雷鸟 Air 系列是国内消费级 AR 眼镜的明星产品,其在显示画质、音频效果和佩戴体验均领先行业。特别是在空间显示效果方面,雷鸟 Air 系列采用了雷鸟创新自研的BirdBath光引擎和索尼旗舰级MicroOLED屏幕,不仅支持3D立体空间显示,在屏幕尺寸、画面清晰度、色彩控制、边缘畸变控制等维度上均有明显优势。凭借优秀的产品体验和用户口碑,雷鸟 Air 系列多次斩获京东、天猫、亚马逊等电商平台的品类销量第一。
AI智能照片转换功能配合雷鸟Air系列AR眼镜,能够将用户带回到那些珍贵的瞬间,重温过去的美好回忆,也预示着未来记录和分享美好时刻的方式将得到改变,图像3D时代即将开启。随着空间智能技术的不断发展,雷鸟创新还将不断推进AI技术在消费级AR眼镜上的落地和应用,为用户带来更加丰富、多元化的数字体验。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。