人工智能的未来将由 AI 代理主导,为了加速这一进程,OpenAI 现在正通过让开发者构建自己的 AI 代理来推动这一愿景的实现。
今天,这家 AI 公司宣布推出新的"Responses API",该接口简化了创建和部署能够独立为用户执行任务的 AI 代理的过程。
Responses API 允许开发者创建由 OpenAI 大语言模型驱动的 AI 代理。据公司表示,该 API 最终将取代现有的 Assistants API,后者将在大约一年后退役。
OpenAI 表示,这项新服务将促进创建能够使用文件搜索工具来扫描公司内部数据集并搜索互联网的 AI 代理。这些功能类似于 OpenAI 最近发布的 Operator 代理,该代理依赖于计算机使用代理 (CUA) 模型来帮助自动化数据录入等任务。
值得注意的是,OpenAI 此前已承认 CUA 模型在尝试自动化操作系统任务时可能不太可靠,并且容易出错。因此,OpenAI 提醒开发者 Responses API 仍应被视为"早期版本",并表示它将随着时间推移变得更加可靠。
在使用 Responses API 创建 AI 代理时,开发者可以选择两种模型:GPT-4o search 和 GPT-4o mini search。据该公司介绍,这两种模型都能够自主浏览网络以寻找问题的答案,并且会引用其回答所依据的来源。
这是一项重要的功能,因为 OpenAI 表示,搜索网络和探索公司私有数据集的能力可以显著提高其模型的准确性,从而提升基于这些模型的代理的表现。公司在其自己的 SimpleQA 基准测试(用于衡量 AI 系统虚构率的测试)中展示了具有搜索能力的模型的优越性。
根据 OpenAI 的数据,GPT-4o search 达到了 90% 的得分,而 GPT-4o mini search 得分为 88%。相比之下,拥有更多参数且更强大的新 GPT-4.5 模型在同样的基准测试中仅得到 63% 的分数,这是因为它缺乏搜索额外信息的能力。
尽管如此,开发者应该记住,虽然这些模型带来了改进,但搜索功能并不能完全解决 AI 的虚构或幻觉问题。基准测试分数表明,GPT-4o search 在大约 10% 的回答中仍会出现事实性错误。对于许多代理式 AI 工作负载而言,这样的错误率可能仍然过高。
即便如此,OpenAI 仍然希望鼓励开发者开始尝试。除了 Responses API,它还发布了一个开源的 Agents SDK,提供了将 AI 模型和代理与内部系统集成的工具。它还提供了实施安全保护和监控 AI 代理活动的工具。这是继另一个名为 Swarm 的工具发布之后的举措,Swarm 为开发者提供了管理和协调多个 AI 代理的框架。
这些新工具都是为了增加 OpenAI 大语言模型的市场份额。根据代理式 AI 创业公司 SOCi Inc. 的市场洞察总监 Damian Rollison 表示,该公司已经使用过类似的策略,比如在新的 Apple Intelligence 套件中将 ChatGPT 与 Apple Inc. 的 Siri 集成,使其接触到新的用户群。
"新的 Responses API 为更广泛地向公众普及 AI 代理的概念开辟了可能性,这些代理可能会被嵌入到他们已经在使用的各种工具中,"Rollison 说。
毫无疑问,一些开发者会急于看到他们能创造出什么样的 AI 代理,但重要的是要记住,这些技术仍处于初期阶段,并不总是像一些用户声称的那样有效。本周早些时候,一家中国创业公司推出的名为 Manus 的 AI 代理在互联网上引起轰动,让一些早期使用者感到惊艳,但在更广泛使用后很快就暴露出了不足。
好文章,需要你的鼓励
这项研究由德累斯顿工业大学等机构的研究团队完成,旨在解决主动学习未被广泛应用的问题。研究者构建了包含460万种超参数组合的实验网格,系统分析了各参数对主动学习性能的影响。研究发现,不同策略实现间存在显著差异,基于边缘的不确定性策略整体表现最佳,随机选择约4000个超参数组合即可获得可靠结果。这些发现为设计可重现、可信赖的主动学习实验提供了明确指导,有助于降低入门门槛,促进技术在实际应用中的普及。
这项由英国爱丁堡大学和上海人工智能实验室研究者共同完成的工作提出了LongBioBench,一种用于评估长文本语言模型的新型基准测试框架。通过使用人工生成的虚构人物传记作为测试环境,该框架在保持可控性的同时,提供了更真实的评估场景。研究对18个长文本模型的测试表明,即使最先进的模型在检索、推理和可信任性方面仍存在显著挑战,特别是上下文长度增加时。研究还揭示了现有合成基准测试的设计缺陷和长上下文预训练的局限性,为未来模型开发提供了重要指导。
SuperWriter是一项来自新加坡科技设计大学和清华大学的突破性研究,通过模仿人类"先思考后写作"的过程,彻底改良了AI长文生成能力。该研究团队开发的框架包含三个关键阶段:规划、写作和修改,使AI能像专业作家一样进行结构化思考。实验结果表明,经过训练的SuperWriter-LM模型不仅超越同等规模的所有AI模型,甚至在某些领域表现优于规模更大的顶级模型,为AI辅助写作开创了新的可能性。
香港大学与阿里巴巴达摩院合作开发的LayerFlow是一种突破性的层级视频生成技术,能同时生成透明前景、完整背景和混合场景视频。该技术通过创新的框架设计将不同视频层级作为子片段连接,并引入层级嵌入使模型区分各层级。面对高质量训练数据稀缺的挑战,研究团队设计了三阶段训练策略,结合Motion LoRA和Content LoRA,实现了图像和视频数据的联合训练。LayerFlow不仅支持多层视频生成,还能实现视频分解和条件层生成,为视频创作领域带来革命性变革。