OpenAI终于开放了一次,罕见地开源了多功能协同AI Agent——Swarm。
与普通AI Agent不同的是,Swarm可以同时创建多个智能体互相协同工作来完成特定任务,包括客户服务、销售支持和售后服务等,同时每个智能体都配备了一套专属工具集以更高效的完成任务。
例如,在电商领域,当用户反馈商品问题时,智能体能够按照设定的步骤,先深入了解问题,然后尝试提出解决方案。如果用户不满意,可以进一步提供退款等操作,可极大提升客服效率和质量。

Swarm简单介绍
开发人员可以在Swarm中定义Python函数作为智能体可调用的工具,这些函数被转换成符合OpenAI API要求的格式,可以在对话过程中由模型自动调用以执行实际任务,例如,查找商品信息或处理退款。
Swarm的强大不仅体现在工具的调用上,还能根据用户的输入动态地决定哪个智能体最适合当前情境,并将对话转移给该智能体。
这种高效方法确保了每次交互都是由最合适的专家来处理。当智能体需要使用某个工具时,Swarm提供了一个执行循环来处理这些工具调用,包括获取来自用户的输入、调用适当的工具、接收结果并基于此生成新的响应,直到没有更多的工具调用为止。
此外,Swarm采用了模块化设计使其具有极高的灵活性和扩展性,可以快速添加新的代理、修改现有用例或引入额外的功能,可以轻松随时更改其变化适应不同的环境。
值得一提的是,Swarm通过自然语言就能构建的智能体,包括询问问题、提供解决方案或执行特定操作。这也就是说,用户没有任何编程经验也能使用整体性能非常强。
Swarm示例
下面是Swarm作为客户服务的智能体简单示例:让智能体对用户问题进行分类,然后要么提出解决方案,要么提供退款。
先定义两个函数execute_refund和look_up_item。我们可以把它称为客户服务常规操作、智能体、助手等。

为了执行常规操作,我们先实现一个简单的循环:
1)获取用户输入。
2)将用户消息添加到messages列表。
3)调用模型,这里使用的是GPT-4o-mini。
4)将模型响应添加到messages列表。

但目前这个循环忽略了函数调用,所以我们需要添加一下。模型要求函数被格式化为函数模式。为了方便,我们可以定义一个辅助函数,将 Python 函数转换为相应的函数模式。

现在,可以在调用模型时使用这个函数来传递工具了。

最后,当大模型调用一个工具时,我们需要执行相应的函数并将结果返回给模型。可以通过将工具名称映射到Python函数的tool_map来实现这一点,然后在execute_tool_call中查找并调用,再将结果添加到对话中。

如果在实际应用场景中,我们还希望让大模型使用结果来产生另一个响应可以在一个循环中不断执行该流程,直到没有更多的工具调用。
OpenAI才刚开源Swarm,但在Github上非常火爆已经突破6000颗星还在快速增长中,有兴趣的小伙伴赶紧试试去吧。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。