Zoox 是 Amazon 旗下的自动驾驶汽车部门,从本周二开始在洛杉矶街道上部署少量改装测试车辆。这虽然是一个小规模的举措,但对于该公司计划在今年晚些时候于拉斯维加斯和旧金山提供公共乘车服务而言,是一个重要的进展。
这项数据收集工作标志着 Zoox 进入其第六个城市测试,为未来的自动驾驶出租车服务奠定基础。与已经在洛杉矶提供付费自动驾驶出租车服务的竞争对手 Waymo 相比,Zoox 仍处于起步阶段。此次部署将派出配备了 Zoox 自动驾驶技术的丰田汉兰达测试车辆,由人工驾驶收集地图数据,为今年夏季在洛杉矶开展更大规模的自动驾驶测试做准备。
Zoox 目前正在多个城市测试其自动驾驶车辆,包括汉兰达测试车队和专门设计的无方向盘和踏板的自动驾驶出租车。值得注意的是,Zoox 已经在福斯特市、旧金山和拉斯维加斯扩大了其专用自动驾驶出租车的无人驾驶测试区域。最近,Zoox 邀请员工、媒体和其他经过审核的来宾体验该服务。
该公司还在奥斯汀、迈阿密和西雅图使用配备人类安全操作员的汉兰达进行测试。
在加利福尼亚州的业务扩张之前几周,Zoox 因其自动驾驶系统出现意外紧急制动问题,对 258 辆车辆进行了主动软件召回。
Zoox 进军洛杉矶之际,Waymo 已在该市推出完全自动驾驶的商用出租车服务。目前,Waymo 是美国唯一一家在湾区、凤凰城和奥斯汀等多个城市提供付费服务的自动驾驶公司。这家 Alphabet 旗下的公司计划在未来两年内在亚特兰大、迈阿密和华盛顿特区推出商业服务。
好文章,需要你的鼓励
这项由清华大学与NVIDIA合作的研究提出了"负例感知微调"(NFT)算法,挑战了"自我提升仅适用于强化学习"的传统观念。通过构建隐式负面策略处理错误答案,NFT在数学推理任务上匹配甚至超越了顶尖强化学习算法的表现。研究不仅证明了监督学习与强化学习在特定条件下的等价性,还展示了如何利用负面反馈显著提升大语言模型的数学能力,为AI训练方法论开辟了新视角。
这项研究提出了一种名为混合推理策略优化(HRPO)的新方法,通过强化学习使大型语言模型能够结合离散标记和连续隐藏表示进行推理。HRPO设计了创新的门控机制,初始时以标记嵌入为主,逐渐增加隐藏状态的比例,并通过强化学习优化这一混合策略。实验表明,HRPO在知识和推理任务上显著优于现有方法,甚至使小型模型达到大型模型的性能,同时展现出跨语言推理等有趣特性。
这项研究介绍了REARANK,一种基于大语言模型的创新列表式推理重排序助手。通过强化学习技术,该模型在排序前先进行明确推理,显著提升了排序性能和可解释性。仅使用179个标注样本训练的REARANK-7B在多个信息检索基准测试中表现卓越,甚至在推理密集型任务上超越了GPT-4。研究证明了结合推理能力与高效排序策略的重要性,为构建更智能的信息检索系统提供了新思路。
"当我看到梵高的每一笔中都有他的痛苦时,才明白我们看的不是作品,而是作者的人生。AI正以惊人的速度接近人类水平通用智能,让Google从'伦敦那帮疯子在搞AGI'转变为全公司共识。DeepMind让AI'合理地幻觉'来创造突破,就像Astra技术让用户第一次惊呼'AI能做到比想象更多'——这不仅是技术革命,更是重新定义创造力的开始。"