当法律研究公司 LexisNexis 创建其 AI 助手 Protégé 时,他们希望在不部署大型模型的情况下找到最佳方式来利用其专业知识。
Protégé 旨在帮助律师、律师助理和法务人员撰写和校对法律文件,确保他们在诉状和简报中引用的内容准确无误。然而,LexisNexis 并不想要一个通用的法律 AI 助手,他们希望打造一个能够学习律所工作流程且更具定制化的助手。
LexisNexis 的首席技术官 Jeff Riehl 向 VentureBeat 表示,他们看到了利用 Anthropic 和 Mistral 的大语言模型 (LLMs) 的机会,并找到最能回答用户问题的最佳模型。
"作为我们多模型方法的一部分,我们为特定用例使用最佳模型。我们使用能够以最快响应时间提供最佳结果的模型," Riehl 说。"对于某些用例,可能是像 Mistral 这样的小型语言模型,或者我们通过模型蒸馏来提高性能并降低成本。"
虽然大语言模型在构建 AI 应用程序时仍然很有价值,但一些组织转向使用小型语言模型 (SLMs) 或将大语言模型蒸馏成同一模型的小型版本。
蒸馏技术(即让大语言模型"教导"较小的模型)已经成为许多组织采用的流行方法。
小型模型通常最适合用于聊天机器人或简单的代码补全等应用,这正是 LexisNexis 想要在 Protégé 中使用的功能。
这并不是 LexisNexis 第一次构建 AI 应用程序,早在 2024 年 7 月推出其法律研究中心 LexisNexis + AI 之前就已经开始了。
"我们过去使用过很多 AI,主要围绕自然语言处理、一些深度学习和机器学习," Riehl 说。"这种情况在 2022 年 11 月 ChatGPT 推出后发生了真正的改变,因为在此之前,很多 AI 功能都是在幕后运行的。但一旦 ChatGPT 问世,它的生成能力和对话能力对我们来说非常吸引人。"
小型微调模型和模型路由
Riehl 表示,LexisNexis 在构建其 AI 平台时使用了来自大多数主要模型提供商的不同模型。LexisNexis + AI 使用了 Anthropic 的 Claude 模型、OpenAI 的 GPT 模型和 Mistral 的模型。
这种多模态方法帮助分解用户希望在平台上执行的每个任务。为此,LexisNexis 必须构建其平台以在模型之间切换。
"我们会将正在执行的任务分解为各个组件,然后确定支持该组件的最佳大语言模型。一个例子是我们使用 Mistral 来评估用户输入的查询," Riehl 说。
对于 Protégé,公司希望获得更快的响应时间和更适合法律用例的微调模型。因此,他们转向了 Riehl 所说的模型"微调"版本,本质上是大语言模型的较小权重版本或蒸馏模型。
"你不需要 GPT-4o 来进行查询评估,所以我们将其用于更复杂的工作,并且我们会切换模型,"他说。
当用户向 Protégé 询问特定案例时,它首先会调用一个微调的 Mistral 模型"来评估查询,然后确定该查询的目的和意图",之后再切换到最适合完成任务的模型。Riehl 说,下一个模型可能是为搜索引擎生成新查询的大语言模型,或者是另一个总结结果的模型。
目前,LexisNexis 主要依赖于微调的 Mistral 模型,不过 Riehl 表示,他们"在 Claude 刚推出时使用过其微调版本;我们现在不在产品中使用它,但在其他方面使用。" LexisNexis 也对使用其他 OpenAI 模型感兴趣,特别是自去年该公司推出新的强化微调功能以来。LexisNexis 正在评估 OpenAI 的推理模型(包括 o3)用于其平台。
Riehl 补充说,他们可能还会考虑使用 Google 的 Gemini 模型。
LexisNexis 用自己的知识图谱支持其所有 AI 平台以实现检索增强生成 (RAG) 功能,特别是因为 Protégé 可能在未来帮助启动代理流程。
AI 法律套件
早在生成式 AI 出现之前,LexisNexis 就测试过在法律行业使用聊天机器人的可能性。2017 年,该公司测试了一个 AI 助手,与 IBM 的 Watson 驱动的 Ross 竞争,而 Protégé 则是该公司 LexisNexis + AI 平台的一部分,该平台整合了 LexisNexis 的 AI 服务。
Protégé 帮助律所完成法务人员或助理通常会做的任务。它帮助撰写基于律所文件和数据的法律简报和诉状,建议法律工作流程的下一步,建议新的提示来优化搜索,起草取证和证据开示问题,链接文件中的引用以确保准确性,生成时间轴,当然还包括总结复杂的法律文件。
"我们将 Protégé 视为个性化和代理能力的初始步骤," Riehl 说。"想想不同类型的律师:并购、诉讼、房地产。它将基于你做的具体任务而不是其他律师做的事情,变得越来越个性化。我们的愿景是,每个法律专业人士都将拥有一个基于他们工作内容的个人助理。"
Protégé 现在与其他法律研究和技术平台竞争。Thomson Reuters 为其 CoCounsel 法律助手定制了 OpenAI 的 o1-mini 模型。获得包括 LexisNexis 在内的投资者 3 亿美元投资的 Harvey 也有一个法律 AI 助手。
好文章,需要你的鼓励
VisTA是一种新型强化学习框架,使视觉AI能够自主探索、选择和组合多种视觉工具。与传统方法不同,VisTA无需人工监督,通过反复尝试学习哪些工具最有效。研究团队在ChartQA、Geometry3K等测试中证明,VisTA显著优于训练免费基线,特别是在分布外样本上表现更佳。其核心创新在于使用群体相对策略优化算法,让AI代理能够根据实际性能而非预设规则来选择工具,为未来发展更灵活的视觉推理系统铺平了道路。
这项研究引入了DFIR-Metric,首个专门评估大语言模型在数字取证与事件响应领域能力的基准测试集。由阿布扎比技术创新研究院领导的国际团队开发的测试包含三个部分:700道理论多选题、150个CTF风格的实际挑战,以及500个基于NIST标准的磁盘与内存取证案例。研究测试了14种顶尖大语言模型,发现虽然它们在理论知识方面表现良好(最高达92.75%准确率),但在需要多步推理的实际取证任务中仍存显著差距(最佳模型仅能解决28%的任务)。
Meta研究团队发现大语言模型在复杂推理任务中,更短的"思考链"反而能带来更高的准确率。研究人员通过三个顶级语言模型的实验证明,选择最短思考链可以比随机选择提高18.8%准确率,比最长思考链提高34.5%准确率,同时显著减少计算资源消耗。基于此,他们提出了"short-m@k"方法,只从最先完成的m个思考中选择答案,既能提高模型表现又能节省高达40%的计算资源。这一发现颠覆了"思考越多越好"的传统观念,为更高效的AI推理开辟了新路径。