尽管企业对AI准确性、可靠性和可信度仍存担忧,亚马逊相信,只要让普通员工更容易构建智能体,他们很快就能自动化工作中的乏味部分。
周四,这家贝佐斯创建的公司发布了名为Quick Suite的新软件平台,旨在简化AI智能体和企业聊天机器人的创建。这些智能体能够从各种内外部数据源检索信息、可视化数据、生成报告并自动化日常任务。
该产品让人联想到许多智能体AI工作流平台,如Google Gemini Enterprise(最近从AgentSpace重新品牌化)和n8n,提供类似无代码的环境来连接内部文档、维基、论坛、内网和其他数据源,同时利用它们创建能够执行邮件摘要、发送消息或更新Jira工单等任务的智能体。
发布时,该软件套件支持50个流行的企业平台,如Office 365、Slack和SalesForce。亚马逊表示,用户可以通过使用MCP服务器来扩展Quick Suite的功能,这是我们今年早些时候深入研究的技术。
然而,AWS不仅仅是制作了另一个拖拽式智能体构建器。这家电商巨头还使用生成式AI模型来帮助用户在几分钟内规划和创建利用大语言模型等工具的自动化工作流。
例如,亚马逊的Quick Flows设计用于自动化日常任务,允许用户解释他们想要完成的任务以及期望的结果应该是什么样子。与此同时,亚马逊的Quick Automate概念类似,但设计用于支持更复杂的项目。
该套件的许多其他组件对于使用过OpenAI的ChatGPT或Anthropic的Claude等流行聊天机器人服务的用户来说都很熟悉。
其中较为熟悉的功能之一是亚马逊的Quick Research工具,据我们了解,它的工作原理就像OpenAI的Deep Research,但可以定制为除了网络之外,还能从企业平台和数据库中获取数据。
Quick还包括数据可视化功能,亚马逊表示该功能从各种数据源提取信息,然后代表用户制作图表和分析。这与Anthropic在其Artifacts功能中所做的类似。
构建AI智能体从未如此简单,但我能信任它们吗
亚马逊的最新平台可能为希望利用AI自动化低价值任务、简化操作和/或缩减员工队伍的企业降低了准入门槛,但挑战仍然存在,特别是在信任和安全领域。
卡内基梅隆大学和Salesforce今年夏天早些时候发布的研究发现,AI智能体在办公任务中的错误率大约为70%。
为了激发对Quick Suite的信心,亚马逊员工显然一直在内部测试其各种功能。例如,这家电商巨头正在使用Quick Automate来核对数千张发票并交叉引用内部数据,以预测现金流并进行根本原因分析。
亚马逊副总法律顾问Jessica Gibson显然正在使用Quick Research来帮助这家电商的法务、公共政策和合规部门调查监管变化对各地区的影响等事项。
亚马逊可能愿意承担AI智能体产生幻觉数据并启发某人相应行动的风险——但许多企业并不愿意。虽然AI智能体的成功率无疑会随着时间的推移而提高,随着企业对其能力更有信心,意外后果的可能性也会增加。
Gartner最近一份报告调查的企业中,大约四分之三表示他们正在以某种形式试点或部署AI智能体。然而,很少有智能体被允许自主运行,原因显而易见。
即使不允许生成式AI为自己做决定,幻觉的风险仍然是一个持续的担忧,今年早些时候一名律师被发现使用ChatGPT后它产生了一系列不存在的法律案例的高度公开丑闻使情况变得更糟。
尽管如此,Gartner仍然看到价值,预测到2028年,大约15%的日常工作决策将由AI智能体做出。
Q&A
Q1:亚马逊Quick Suite是什么?它有什么功能?
A:Quick Suite是亚马逊推出的软件平台,旨在简化AI智能体和企业聊天机器人的创建。它能够从内外部数据源检索信息、可视化数据、生成报告并自动化日常任务,支持50个流行企业平台如Office 365、Slack和SalesForce。
Q2:AI智能体在企业办公任务中的准确率如何?
A:根据卡内基梅隆大学和Salesforce的研究,AI智能体在办公任务中的错误率大约为70%。这是企业在部署AI智能体时面临的主要挑战之一,也是为什么很少有智能体被允许完全自主运行的原因。
Q3:Quick Suite包含哪些主要工具?
A:Quick Suite包含多个工具:Quick Flows用于自动化日常任务,Quick Automate支持更复杂项目,Quick Research类似OpenAI的Deep Research但可从企业平台获取数据,还有数据可视化功能用于提取信息并制作图表分析。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
武汉大学研究团队提出DITING网络小说翻译评估框架,首次系统评估大型语言模型在网络小说翻译方面的表现。该研究构建了六维评估体系和AgentEval多智能体评估方法,发现中国训练的模型在文化理解方面具有优势,DeepSeek-V3表现最佳。研究揭示了AI翻译在文化适应和创意表达方面的挑战,为未来发展指明方向。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
参数实验室等机构联合发布的Dr.LLM技术,通过为大型语言模型配备智能路由器,让AI能根据问题复杂度动态选择计算路径。该系统仅用4000个训练样本和极少参数,就实现了准确率提升3.4%同时节省计算资源的突破,在多个任务上表现出色且具有强泛化能力,为AI效率优化开辟新方向。