Amazon 正在赌注于代理互操作性和模型混合技术,以增强新版 Alexa 语音助手的效能。公司为这款旗舰语音助手注入了代理能力和浏览器使用功能。
这个全新版本被命名为 Alexa+,Amazon 强调其"功能更强大"。例如,它现在可以主动告知用户他们喜欢的作家发布了新书,或是他们喜欢的艺术家来到城里演出,甚至可以帮助购买门票。Alexa+ 能够理解用户指令,并调用不同知识库中的"专家"来回答问题和完成任务,比如"办公室附近最近的披萨店在哪里?我的同事会喜欢吗?——如果你认为他们会喜欢就帮我预订。"
换句话说,Alexa+ 融合了 AI 代理、计算机使用能力以及从 Amazon 生态系统中学习的知识,期望成为一个更强大、更智能的家庭语音助手。
Alexa+ 目前运行在 Amazon 的 Nova 模型和 Anthropic 的模型上。不过,Amazon 的 Alexa 和 Echo 副总裁 Daniel Rausch 向 VentureBeat 表示,该设备将保持"模型无关性",公司可能会引入其他模型 (至少是 Amazon Bedrock 上可用的模型) 来寻找最适合完成任务的模型。
"关键在于选择合适的集成来完成任务,找出正确的指令,确定完成任务所需的要素,然后统筹协调整个过程,"Rausch 说,"需要理解的重要一点是,Alexa 将继续与 Bedrock 上任何可用的最佳模型一起发展。"
什么是模型混合?
模型混合或模型路由允许企业和其他用户根据具体查询选择合适的 AI 模型。开发者越来越多地转向模型混合来降低成本。毕竟,并非每个提示都需要推理模型来回答;有些模型在特定任务上表现更好。
Amazon 的云计算和 AI 部门 AWS 一直是模型混合的支持者。最近,它在 Bedrock 上发布了名为智能提示路由的功能,该功能可以将提示引导到最佳模型和模型大小来解决查询。
这种方法似乎正在发挥作用。"对于 Alexa 在任何特定任务中的任何回应,我都无法确切说出它使用的是哪个模型,"Rausch 说。
代理互操作性和编排
Rausch 表示,Alexa+ 通过三种不同方式整合代理。第一是传统的 API;第二是部署能够浏览网站和应用程序的代理,如 Anthropic 的计算机使用功能;第三是将代理与其他代理连接。
"但是在所有这些不同类型的体验的中心,统筹协调的是这些基础的、非常强大的、最先进的大语言模型,"Rausch 说。
他补充说,如果第三方应用程序已经有自己的代理,即使该外部代理使用不同的模型构建,它仍然可以与 Alexa+ 内部运行的代理进行对话。
Rausch 强调,Alexa 团队使用了 Bedrock 的工具和技术,包括新的多代理编排工具。
Anthropic 产品总监 Mike Krieger 向 VentureBeat 表示,早期版本的 Claude 无法完成 Alexa+ 想要实现的功能。
"在演示中可以看到一个非常有趣的'为什么是现在?'的时刻,当然,模型变得更好了,"Krieger 说,"但如果你试图用 3.0 Sonnet 或我们的 3.0 级别的模型来做这件事,我认为你会在同时使用多种工具方面遇到很多困难。"
虽然 Rausch 和 Krieger 都没有确认 Amazon 使用了哪个具体的 Anthropic 模型来构建 Alexa+,但值得注意的是,Anthropic 在周一发布了 Claude 3.7 Sonnet,该模型已在 Bedrock 上可用。
对 AI 的大规模投资
许多用户第一次接触 AI 是通过 AI 语音助手,如 Alexa、Google Home 甚至是 Apple 的 Siri。这些助手让人们可以外包一些任务,比如开灯。我本人不拥有 Alexa 或 Google Home 设备,但最近在酒店住宿时,我体会到拥有这样一个设备的便利。我可以在被窝里让 Alexa 关闭闹钟、开灯和打开窗帘。
但是,当生成式 AI 流行起来时,Alexa、Google Home 设备和 Siri 虽然已经在人们的生活中无处不在,却开始显露出年代感。突然间,人们希望从 AI 助手那里获得更多实时答案,并要求更智能的任务解决方案,比如无需太多提示就能添加多个会议到日历中。
Amazon 承认,生成式 AI 的崛起,特别是智能代理的发展,使得 Alexa 终于能够发挥其潜力。
"在此之前,我们受技术限制,无法让 Alexa 发挥全部潜力,"Amazon 设备和服务高级副总裁 Panos Panay 在演示时说。
Rausch 表示,希望 Alexa+ 能够继续改进,添加新模型,并有望让更多人感受到这项技术的便利。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。