生成式AI模型已成为研究与应用的焦点,这些模型虽在文本和图像生成等方面展现出了强大能力,但仍存在显著的局限性。人类在面对复杂的模式识别任务时,常常会借助诸如书籍、搜索引擎或计算器等工具,补充自身知识,从而更准确地得出结论,同样,生成式AI模型也需要这样的能力拓展。
以实际应用场景为例,在客户购物推荐方面,模型若要生成高度个性化的建议,仅依靠其训练数据中的固有知识远远不够。此时,借助数据库检索工具来获取特定客户的购买历史等详细信息就非常必要,只有这样,模型才能根据客户的独特偏好和过往消费行为,精准地推荐符合其需求的商品;在商务沟通场景,当需要根据用户的查询来发送电子邮件回复或执行金融交易时,模型必须能够自主地规划和执行任务,它不仅需要能够访问一系列外部工具,还需要具备合理运用这些工具的能力。这种将推理、逻辑以及对外部信息的获取能力与生成式AI模型相结合的理念,催生了智能体(agent)的概念。
智能体作为一种超越了生成式AI模型独立能力的程序,为人工智能的应用开辟了新的广阔前景。智能体,从其最基本的形式而言,是一种可以通过观察世界并利用自身所具备的工具采取行动以达成目标的应用。与传统的生成式AI模型相比,智能体具有显著的自主性,它能够在无需人类持续干预的情况下独立运作,尤其是当被赋予明确的目标时,这种自主性表现得更为突出。
智能体的认知架构是其核心所在,主要包含三个关键要素:模型、工具和编排层。其中,模型(Model)在智能体的运行过程中充当着核心决策制定者的角色。这些模型可以是单个或多个不同规模的语言模型,并且需要遵循基于指令的推理和逻辑框架,例如ReAct、Chain-of-Thought或Tree-of-Thoughts等。它们既可以是通用型的,也能够根据具体的智能体架构需求进行多模态或微调处理,以更好地适应特定任务。
工具(Tools)是智能体突破自身局限、与外部世界建立紧密联系的关键要素。基础模型在文本和图像生成方面表现出色,但它们缺乏直接与外部世界交互的能力,而工具的出现弥补了这一缺陷,使得智能体能够与外部数据和服务进行互动,从而极大地拓展了其行动范围。工具的形式丰富多样,其复杂程度也各有不同,常见的如基于webAPI方法(如GET、POST、PATCH、DELETE)的工具。比如,通过工具可以更新数据库中的客户信息,或者获取天气数据以优化旅行推荐等,这在实际应用中具有重要意义。
编排层(The orchestration layer)是智能体运行的核心枢纽,它掌控着智能体的信息处理流程和决策制定过程。它描述了一个循环过程,智能体通过该过程接收信息、进行内部推理,并依据推理结果决定下一步的行动或决策。这一过程会持续进行,直至智能体成功实现目标或达到特定的停止条件。不同的智能体在执行不同任务时,编排层的复杂程度会有很大差异,从简单的基于决策规则的计算,到涉及复杂链式逻辑、额外机器学习算法或其他概率推理技术的过程均有可能。
智能体与传统模型在多个方面存在明显区别。在知识获取方面,模型的知识局限于其训练数据,而智能体则能够通过工具与外部系统连接,从而获取更广泛的知识。在会话管理上,模型通常仅进行单次推理或预测,缺乏对会话历史的有效管理,而智能体能够管理会话历史,基于用户的多轮查询和编排层的决策进行更准确的推理和预测。在工具和逻辑层方面,模型本身没有原生工具实现和逻辑层,需要用户通过特定的提示方式引导,而智能体在其架构中天然地集成了工具和如CoT、ReAct等推理框架,使其在处理任务时更加高效和智能。
性能优化对于智能体实现更高效、智能的任务处理至关重要。为了提升智能体在使用工具生成输出时的性能,尤其是在大规模生产环境中,针对性的学习方法发挥着关键作用。其中,上下文学习为智能体提供了一种在推理时快速适应特定任务的途径。通过在推理阶段向通用模型提供提示、工具以及少量示例,智能体能够即时学习如何在特定任务中恰当运用工具。例如在自然语言处理任务中,基于ReAct框架的上下文学习可以使智能体根据用户的文本查询,迅速理解任务需求并选择合适的工具进行处理,如在信息检索任务中准确调用搜索引擎工具,有效提升处理效率和准确性。
基于检索的上下文学习则进一步拓展了智能体获取知识的能力。它能够从外部记忆中动态检索与任务最相关的信息、工具及示例,并将其融入模型提示中。在实际应用中,如在企业知识管理系统中,智能体可以利用这种学习方式快速获取公司内部的相关文档、数据及操作案例,从而更好地回答员工关于业务流程、项目细节等方面的问题,增强智能体应对复杂任务的能力,使其决策和响应更加贴合实际需求。
微调学习是另一种重要的性能提升手段。在推理前,通过使用大量特定示例对模型进行训练,智能体能够深入理解不同工具的应用场景和时机。例如在医疗智能辅助诊断领域,经过大量病例数据和诊断工具使用案例的微调训练后,智能体在面对患者症状描述时,能够更准确地选择合适的医学检测工具建议,并依据检测结果进行初步的病情分析,为医生提供有价值的参考意见,显著提高诊断的准确性和效率。
在实际应用方面,LangChain为构建智能体提供了便捷的实践途径。利用其与LangGraph库,开发者可以轻松地将逻辑、推理和工具调用链接起来,创建出能够满足用户多阶段查询需求的智能体。例如,在构建一个体育赛事查询智能体时,结合SerpAPI和Google Places API等工具,智能体能够准确回答诸如“某球队上周的比赛对手是谁以及对手体育场的地址是什么”等复杂问题。通过模型、工具和编排层的紧密协作,智能体能够高效地处理用户查询,展示出良好的应用效果,为用户提供准确、及时的信息服务。
此外,Google的VertexAI平台为智能体的生产应用提供了强大的支持环境。它整合了用户界面、评估框架和持续改进机制等关键要素,极大地简化了智能体应用的开发和部署流程。开发者在该平台上可以利用自然语言界面快速定义智能体的目标、任务指令、工具和示例等重要元素,轻松构建出符合特定需求的系统行为。同时,平台提供的丰富开发工具能够对智能体进行全面的测试、评估和性能优化,使开发者能够专注于智能体的功能创新和改进,而无需过多关注基础设施和部署的复杂性。
好文章,需要你的鼓励
Oracle 推出最新一代 Exadata 平台 X11M,大幅提升了 Oracle 数据库在 AI、OLTP 和分析方面的性能。X11M 针对云、多云和客户数据中心环境进行了优化,在速度和效率上相比前代系统有显著提升。它通过硬件和软件的深度集成,为企业客户提供了强大的数据处理能力,同时兼顾了可扩展性、成本效益和可持续性。X11M 的推出标志着 Oracle 在数据库技术领域又迈出了重要一步。
在 GPU 众多特性中,NVIDIA GPU 凭借其独特的 CUDA 架构和丰富的 CUDA 核心而备受瞩目。然而,由于 GPU 资源的高昂成本和相对稀缺
随着数据中心能耗的急剧增长,使之成为双碳目标达成的重点监控目标。文章针对数据中心中功耗大于200W的高功率芯片,沿着散热路径