检索增强生成 (RAG) 已成为帮助企业利用企业数据优化大语言模型 (LLM) 输出的黄金标准。
虽然 LLM 通常使用公开信息进行训练,但 RAG 使企业能够利用产品、流程或政策等企业文档中的上下文或领域特定知识来增强其 LLM。
根据 McKinsey 的研究,RAG 在企业生成式 AI 服务中展现出的增强效果可以提升员工和客户满意度,从而改善整体性能。
然而,如何在企业范围内扩展 RAG 的应用并不明确,这本可以帮助组织加速其生成式 AI 用例的发展。早期为帮助快速开发新的基于 RAG 的生成式 AI 产品和服务而制定的可重复流程,遇到了影响性能和相关性的限制。
幸运的是,短期和中期解决方案为确保 RAG 在 2025 年及以后实现规模化提供了可能的路径。
RAGOps 的崛起
使用 RAG 的 LLM 需要访问高质量的训练数据。然而,由于数据分散在不同部门、系统和格式中,确保数据的质量和可用性往往具有挑战性。
为了最大限度地发挥效果,使用 RAG 的 LLM 还需要连接到部门希望提取数据的来源 - 如客户服务平台、内容管理系统和人力资源系统等。这种集成需要丰富的技术专业知识,包括数据映射和 API 管理经验。
此外,随着 RAG 模型的大规模部署,它们可能消耗大量计算资源并生成大量数据。这需要合适的基础设施和部署经验,以及管理大型组织中数据的能力。
RAGOps 是一种引起 AI 专家关注的主流化 RAG 方法,它是一种能够以确保一致性同时降低复杂性的方式自动化 RAG 工作流、模型和接口的方法。
RAGOps 使数据科学家和工程师能够自动化数据摄入和模型训练以及推理过程。它还通过提供基础设施堆栈中的负载均衡和分布式计算机制来解决可扩展性瓶颈。在 RAG 管道的每个阶段都执行监控和分析,以帮助持续优化和改进模型和操作。
例如,McKinsey 使用 RAGOps 帮助其 Lilli 生成式 AI 平台筛选 100,000 份精选文档。Lilli 已回答了超过 800 万个提示,约四分之三的 McKinsey 员工使用它来搜索有关运营的定制见解。
智能代理 RAG 的时代即将到来
作为组织寻求从生成式 AI 实施中获取更多价值的运营模型,RAGOps 有望在已经实践其他运营框架(如 DevOps 或 MLOps)的组织中得到良好应用。
然而,一些组织可能采用更新颖的方法,即跟随生成式 AI 行业的发展方向:将 RAG 与智能代理 AI 结合,使 LLM 能够适应不断变化的上下文和业务需求。
根据 Deloitte 的研究,到 2025 年,25% 的组织将实施企业代理,到 2027 年将增长到 50%。这些旨在以最少人工干预执行数字任务的代理正引起希望将更多数字运营委托给软件的企业的兴趣。
具有 RAG 功能的智能代理 AI 将包括许多方法和解决方案,但许多场景可能会共享一些共同特征。
例如,个别代理将评估和总结来自单个文档的提示答案,甚至比较多个文档之间的答案。元代理将协调这个过程,管理个别代理并整合输出以提供连贯的响应。
最终,代理将在 RAG 框架内进行多步骤的分析、规划和推理,在执行任务时学习并根据新输入调整策略。这将帮助 LLM 随着时间的推移更好地响应更细微的提示。
至少在理论上是这样。
结论
生成式 AI 技术的未来一片光明,它将从研究实验室流向企业 AI 工厂,成为蓬勃发展的企业 AI 领域的一部分。
例如,模型的占用空间将缩小,同时变得更加优化,以便在本地和边缘的 AI PC 及其他设备上高效运行。RAG 标准化,包括软件库和现成工具,将不断发展。
无论您的组织是采用 RAGOps 还是采用智能代理 AI,都有解决方案正在出现,帮助组织扩展 RAG 实施。
以医疗保健为例,在 Dell AI Factory 和 NVIDIA 上应用的智能代理 RAG,有助于协调利用结构化数据(如患者日程和档案)以及非结构化数据(如医疗记录和影像文件)的挑战,同时保持对 HIPAA 和其他要求的合规性。
这只是众多光明选择中的一个。更多解决方案正在涌现,为正在进行生成式 AI 之旅的组织照亮前进的道路。
好文章,需要你的鼓励
Oracle 推出最新一代 Exadata 平台 X11M,大幅提升了 Oracle 数据库在 AI、OLTP 和分析方面的性能。X11M 针对云、多云和客户数据中心环境进行了优化,在速度和效率上相比前代系统有显著提升。它通过硬件和软件的深度集成,为企业客户提供了强大的数据处理能力,同时兼顾了可扩展性、成本效益和可持续性。X11M 的推出标志着 Oracle 在数据库技术领域又迈出了重要一步。
在 GPU 众多特性中,NVIDIA GPU 凭借其独特的 CUDA 架构和丰富的 CUDA 核心而备受瞩目。然而,由于 GPU 资源的高昂成本和相对稀缺
随着数据中心能耗的急剧增长,使之成为双碳目标达成的重点监控目标。文章针对数据中心中功耗大于200W的高功率芯片,沿着散热路径