Contextual AI 新模型在准确性方面超越 GPT-4o — 这意味着什么

Contextual AI今天发布了其基础语言模型（GLM），声称在行业中提供了最高的事实准确性，超越了Google、Anthropic和OpenAI的领先AI系统，在一个关键的真实性基准测试中表现出色。该公司由检索增强生成（RAG）技术的先驱创立，GLM在FACTS基准测试中获得了88%的事实得分，而Google的Gemini 2.0 Flash为84.6%，Anthropic的Claude 3.5 Sonnet为79.4%，OpenAI的GPT-4o为78.8%。

Contextual AI 今天发布了其基于上下文的语言模型 (GLM)，声称通过在真实性关键基准测试中超越 Google、Anthropic 和 OpenAI 的领先 AI 系统，实现了业内最高的事实准确性。

这家由检索增强生成 (RAG) 技术先驱创立的初创公司报告称，其 GLM 在 FACTS 基准测试中获得了 88% 的事实准确性得分，相比之下，Google 的 Gemini 2.0 Flash 为 84.6%，Anthropic 的 Claude 3.5 Sonnet 为 79.4%，OpenAI 的 GPT-4o 为 78.8%。

虽然大语言模型已经改变了企业软件，但事实不准确性——通常被称为"幻觉"——仍然是企业采用的一个关键挑战。Contextual AI 旨在通过创建一个专门为企业 RAG 应用优化的模型来解决这个问题，因为在这些应用中准确性至关重要。

"我们知道解决方案的一部分将是一种叫做 RAG 的技术——检索增强生成，"Contextual AI 的 CEO 兼联合创始人 Douwe Kiela 在接受 VentureBeat 独家采访时表示。"我们之所以知道这一点，是因为 RAG 最初是我的想法。这家公司的真正目标是以正确的方式实现 RAG，将 RAG 提升到新的水平。"

该公司的重点与 ChatGPT 或 Claude 等通用模型有很大不同，后者旨在处理从创意写作到技术文档的各种任务。相反，Contextual AI 的目标是那些事实精确性比创意灵活性更重要的高风险企业环境。

"如果你在一个高度监管的行业的企业环境中遇到 RAG 问题，你对幻觉完全零容忍，"Kiela 解释道。"对营销部门有用的通用语言模型，并不适用于对错误更加敏感的企业环境。"

一份基准比较显示，Contextual AI 的新型基于上下文的语言模型 (GLM) 在事实准确性测试中超越了来自 Google、Anthropic 和 OpenAI 的竞争对手。该公司声称其专业化方法减少了企业环境中的 AI 幻觉。(来源：Contextual AI)

Contextual AI 如何将"基于上下文"作为企业语言模型的新标准

"基于上下文"的概念——确保 AI 响应严格遵循上下文中明确提供的信息——已成为企业 AI 系统的关键要求。在金融、医疗保健和电信等受监管行业中，企业需要能够提供准确信息或明确承认不知道某些内容的 AI。

Kiela 举例说明了这种严格的基于上下文如何运作："如果你给标准语言模型一个配方或公式，并在某处说'但这只适用于大多数情况'，大多数语言模型仍然会假设它是普遍适用的给出配方。但我们的语言模型会说，'实际上，它只说这适用于大多数情况。'它捕捉到了这个额外的细微差别。"

能够说"我不知道"对企业环境来说是一个关键特性。"如果你考虑到企业环境，这实际上是一个非常强大的功能，"Kiela 补充道。

Contextual AI 的 RAG 2.0：处理公司信息的更集成方式

Contextual AI 的平台建立在其称之为"RAG 2.0"的方法之上，这种方法超越了简单连接现成组件的做法。

"典型的 RAG 系统使用固定的现成模型进行嵌入，使用向量数据库进行检索，使用黑盒语言模型进行生成，通过提示或编排框架将它们拼接在一起，"根据公司声明。"这导致了生成式 AI 的'弗兰肯斯坦怪物'：各个组件在技术上都能工作，但整体远非最优。"

相反，Contextual AI 对系统的所有组件进行联合优化。"我们有这个检索器混合组件，这真的是一种进行智能检索的方式，"Kiela 解释道。"它查看问题，然后像最新一代模型一样思考，首先它规划检索策略。"

这整个系统与 Kiela 称之为"世界上最好的重排序器"协同工作，在将信息发送到基于上下文的语言模型之前，帮助优先处理最相关的信息。

超越纯文本：Contextual AI 现在可以读取图表并连接数据库

虽然新发布的 GLM 专注于文本生成，但 Contextual AI 的平台最近增加了对多模态内容的支持，包括图表、图示和来自 BigQuery、Snowflake、Redshift 和 Postgres 等流行平台的结构化数据。

"企业中最具挑战性的问题是在非结构化和结构化数据的交叉点上，"Kiela 指出。"我最兴奋的是结构化和非结构化数据的交叉点。大型企业中最令人兴奋的问题正好处于结构化和非结构化的交叉点上，那里有一些数据库记录、一些交易、可能还有一些政策文档和其他各种内容。"

据 Kiela 称，该平台已经支持各种复杂的可视化，包括半导体行业的电路图。

Contextual AI 的未来计划：为日常业务创建更可靠的工具

Contextual AI 计划在 GLM 发布后不久发布其专门的重排序组件，随后扩展文档理解功能。该公司还在开发具有更多主动能力的实验性功能。

Contextual AI 由 Kiela 和 Amanpreet Singh 于 2023 年创立，他们此前在 Meta 的基础 AI 研究 (FAIR) 团队和 Hugging Face 工作。该公司已经获得了包括汇丰银行、高通和经济学人在内的客户。该公司将自己定位为帮助企业最终实现其 AI 投资的具体回报。

"对于那些可能面临压力要开始从 AI 获得投资回报的公司来说，这真的是一个机会，可以开始寻找更专业的解决方案来真正解决他们的问题，"Kiela 说。"这其中的一部分确实是拥有一个基于上下文的语言模型，它可能比标准语言模型更无聊，但它真的很擅长确保它基于上下文，你可以真正信任它来完成工作。"

来源：VentureBeat

0赞

好文章，需要你的鼓励

Contextual AI 新模型在准确性方面超越 GPT-4o — 这意味着什么

来源：VentureBeat

2025

03/05

09:45

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: