亚马逊公司旗下以保密著称的 Lab126 研发部门今日宣布成立了一个专注于人工智能 agent 的新团队。
Lab126 是亚马逊内部的一个研发机构,以高度保密闻名。此前它曾协助开发了 Amazon Kindle 电子书阅读器和 Echo 智能音箱等设备,并以在产品发布前对许多创新技术保密而著称。
这一新团队的成立正值越来越多的科技公司在探索人工智能 agent 潜能之时。它们希望利用人工智能的最新进展,超越简单的文本和图像生成器,打造能够代表用户执行复杂多步任务和操作的数字助手。
Lab126 的新团队主要将研究如何利用人工智能 agent 来提升公司机器人的性能。亚马逊在其物流运营中已经大量使用仓库机器人,现正寻求提升这些机器人的智能化水平,以便它们能执行多种任务。这将是一次重大改进,因为目前的机器人通常只设计完成单一任务。
为此,亚马逊的新团队将尝试开发用于所谓“物理 AI”应用的 agentic AI 框架。
亚马逊在周三的一次发布会上表示,通过将 agentic AI 能力嵌入机器人,这些机器将能够卸载拖车,然后取回任何需要维修的零件。公司解释称,这种 agentic AI 软件将使机器人能够 “hear, understand and act on natural language commands” ,从而将其转变为一支具备多种技能、灵活多变的自动化工人军队。
亚马逊机器人部门高级应用科学经理 Yesh Dattatreya 告诉路透社,对于亚马逊的客户来说,最大的好处将是更快的配送速度。他认为,这些机器人在需求高峰期(例如节假日)尤为有用,能够加快订单处理速度,并通过在狭小空间中搬运重物来优化仓库运营。他还表示,这将有助于最大限度减少浪费并降低碳排放。
不过,Dattatreya 强调,亚马逊的 agentic AI 机器人仍处于非常早期的阶段,公司尚未决定它们的具体形态,以及具体的部署时间和数量。
亚马逊在 AI agent 方面已有一定经验。今年早些时候,公司旗下的 AI 实验室推出了一款名为 Nova Act 的网页浏览器 agent,能够在线执行任务。此外,它还推出了一款先进版本的数字语音助手 Alexa+,具备一定的 agentic 能力。
融合 AI 的地图
在同一活动的另一项公告中,亚马逊表示正致力于开发更先进的地图技术,以提高配送员的工作效率。该技术将提供诸如建筑形状等更为细致的信息,以及配送员在投递包裹途中可能遇到的任何障碍物。
亚马逊在活动中表示:“这一创新使得亚马逊的配送员更容易找到正确的交付位置,尤其是在诸如大型办公园区等复杂环境中。”
亚马逊暗示,这些先进地图可能会与其为配送员开发的专用眼镜集成在一起。据报道,去年该公司就开始研发一款内嵌显示屏的眼镜,该眼镜能够显示实时地图,并提供实时、逐向导航。其理念是让配送员始终双手稳握方向盘,而无需停车操作 GPS 设备——更不用说在未停车的情况下操作。
亚马逊地图与地理空间业务副总裁兼总经理 Viraj Chatterjee 确认,公司正在研发这种设备,这是首次有公司高管公开证实此事。他对路透社表示,这项新地图技术可能会与这种设备配合使用,但他补充道,相关硬件仍在开发中。他指出,早期测试显示该软件在大型住宅区尤为有效,因为这些区域中许多建筑外观相同。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。