Amazon 正在赌注于代理互操作性和模型混合技术,以增强新版 Alexa 语音助手的效能。公司为这款旗舰语音助手注入了代理能力和浏览器使用功能。
这个全新版本被命名为 Alexa+,Amazon 强调其"功能更强大"。例如,它现在可以主动告知用户他们喜欢的作家发布了新书,或是他们喜欢的艺术家来到城里演出,甚至可以帮助购买门票。Alexa+ 能够理解用户指令,并调用不同知识库中的"专家"来回答问题和完成任务,比如"办公室附近最近的披萨店在哪里?我的同事会喜欢吗?——如果你认为他们会喜欢就帮我预订。"
换句话说,Alexa+ 融合了 AI 代理、计算机使用能力以及从 Amazon 生态系统中学习的知识,期望成为一个更强大、更智能的家庭语音助手。
Alexa+ 目前运行在 Amazon 的 Nova 模型和 Anthropic 的模型上。不过,Amazon 的 Alexa 和 Echo 副总裁 Daniel Rausch 向 VentureBeat 表示,该设备将保持"模型无关性",公司可能会引入其他模型 (至少是 Amazon Bedrock 上可用的模型) 来寻找最适合完成任务的模型。
"关键在于选择合适的集成来完成任务,找出正确的指令,确定完成任务所需的要素,然后统筹协调整个过程,"Rausch 说,"需要理解的重要一点是,Alexa 将继续与 Bedrock 上任何可用的最佳模型一起发展。"
什么是模型混合?
模型混合或模型路由允许企业和其他用户根据具体查询选择合适的 AI 模型。开发者越来越多地转向模型混合来降低成本。毕竟,并非每个提示都需要推理模型来回答;有些模型在特定任务上表现更好。
Amazon 的云计算和 AI 部门 AWS 一直是模型混合的支持者。最近,它在 Bedrock 上发布了名为智能提示路由的功能,该功能可以将提示引导到最佳模型和模型大小来解决查询。
这种方法似乎正在发挥作用。"对于 Alexa 在任何特定任务中的任何回应,我都无法确切说出它使用的是哪个模型,"Rausch 说。
代理互操作性和编排
Rausch 表示,Alexa+ 通过三种不同方式整合代理。第一是传统的 API;第二是部署能够浏览网站和应用程序的代理,如 Anthropic 的计算机使用功能;第三是将代理与其他代理连接。
"但是在所有这些不同类型的体验的中心,统筹协调的是这些基础的、非常强大的、最先进的大语言模型,"Rausch 说。
他补充说,如果第三方应用程序已经有自己的代理,即使该外部代理使用不同的模型构建,它仍然可以与 Alexa+ 内部运行的代理进行对话。
Rausch 强调,Alexa 团队使用了 Bedrock 的工具和技术,包括新的多代理编排工具。
Anthropic 产品总监 Mike Krieger 向 VentureBeat 表示,早期版本的 Claude 无法完成 Alexa+ 想要实现的功能。
"在演示中可以看到一个非常有趣的'为什么是现在?'的时刻,当然,模型变得更好了,"Krieger 说,"但如果你试图用 3.0 Sonnet 或我们的 3.0 级别的模型来做这件事,我认为你会在同时使用多种工具方面遇到很多困难。"
虽然 Rausch 和 Krieger 都没有确认 Amazon 使用了哪个具体的 Anthropic 模型来构建 Alexa+,但值得注意的是,Anthropic 在周一发布了 Claude 3.7 Sonnet,该模型已在 Bedrock 上可用。
对 AI 的大规模投资
许多用户第一次接触 AI 是通过 AI 语音助手,如 Alexa、Google Home 甚至是 Apple 的 Siri。这些助手让人们可以外包一些任务,比如开灯。我本人不拥有 Alexa 或 Google Home 设备,但最近在酒店住宿时,我体会到拥有这样一个设备的便利。我可以在被窝里让 Alexa 关闭闹钟、开灯和打开窗帘。
但是,当生成式 AI 流行起来时,Alexa、Google Home 设备和 Siri 虽然已经在人们的生活中无处不在,却开始显露出年代感。突然间,人们希望从 AI 助手那里获得更多实时答案,并要求更智能的任务解决方案,比如无需太多提示就能添加多个会议到日历中。
Amazon 承认,生成式 AI 的崛起,特别是智能代理的发展,使得 Alexa 终于能够发挥其潜力。
"在此之前,我们受技术限制,无法让 Alexa 发挥全部潜力,"Amazon 设备和服务高级副总裁 Panos Panay 在演示时说。
Rausch 表示,希望 Alexa+ 能够继续改进,添加新模型,并有望让更多人感受到这项技术的便利。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。