Contextual AI 今天发布了其基于上下文的语言模型 (GLM),声称通过在真实性关键基准测试中超越 Google、Anthropic 和 OpenAI 的领先 AI 系统,实现了业内最高的事实准确性。
这家由检索增强生成 (RAG) 技术先驱创立的初创公司报告称,其 GLM 在 FACTS 基准测试中获得了 88% 的事实准确性得分,相比之下,Google 的 Gemini 2.0 Flash 为 84.6%,Anthropic 的 Claude 3.5 Sonnet 为 79.4%,OpenAI 的 GPT-4o 为 78.8%。
虽然大语言模型已经改变了企业软件,但事实不准确性——通常被称为"幻觉"——仍然是企业采用的一个关键挑战。Contextual AI 旨在通过创建一个专门为企业 RAG 应用优化的模型来解决这个问题,因为在这些应用中准确性至关重要。
"我们知道解决方案的一部分将是一种叫做 RAG 的技术——检索增强生成,"Contextual AI 的 CEO 兼联合创始人 Douwe Kiela 在接受 VentureBeat 独家采访时表示。"我们之所以知道这一点,是因为 RAG 最初是我的想法。这家公司的真正目标是以正确的方式实现 RAG,将 RAG 提升到新的水平。"
该公司的重点与 ChatGPT 或 Claude 等通用模型有很大不同,后者旨在处理从创意写作到技术文档的各种任务。相反,Contextual AI 的目标是那些事实精确性比创意灵活性更重要的高风险企业环境。
"如果你在一个高度监管的行业的企业环境中遇到 RAG 问题,你对幻觉完全零容忍,"Kiela 解释道。"对营销部门有用的通用语言模型,并不适用于对错误更加敏感的企业环境。"
一份基准比较显示,Contextual AI 的新型基于上下文的语言模型 (GLM) 在事实准确性测试中超越了来自 Google、Anthropic 和 OpenAI 的竞争对手。该公司声称其专业化方法减少了企业环境中的 AI 幻觉。(来源:Contextual AI)
Contextual AI 如何将"基于上下文"作为企业语言模型的新标准
"基于上下文"的概念——确保 AI 响应严格遵循上下文中明确提供的信息——已成为企业 AI 系统的关键要求。在金融、医疗保健和电信等受监管行业中,企业需要能够提供准确信息或明确承认不知道某些内容的 AI。
Kiela 举例说明了这种严格的基于上下文如何运作:"如果你给标准语言模型一个配方或公式,并在某处说'但这只适用于大多数情况',大多数语言模型仍然会假设它是普遍适用的给出配方。但我们的语言模型会说,'实际上,它只说这适用于大多数情况。'它捕捉到了这个额外的细微差别。"
能够说"我不知道"对企业环境来说是一个关键特性。"如果你考虑到企业环境,这实际上是一个非常强大的功能,"Kiela 补充道。
Contextual AI 的 RAG 2.0:处理公司信息的更集成方式
Contextual AI 的平台建立在其称之为"RAG 2.0"的方法之上,这种方法超越了简单连接现成组件的做法。
"典型的 RAG 系统使用固定的现成模型进行嵌入,使用向量数据库进行检索,使用黑盒语言模型进行生成,通过提示或编排框架将它们拼接在一起,"根据公司声明。"这导致了生成式 AI 的'弗兰肯斯坦怪物':各个组件在技术上都能工作,但整体远非最优。"
相反,Contextual AI 对系统的所有组件进行联合优化。"我们有这个检索器混合组件,这真的是一种进行智能检索的方式,"Kiela 解释道。"它查看问题,然后像最新一代模型一样思考,首先它规划检索策略。"
这整个系统与 Kiela 称之为"世界上最好的重排序器"协同工作,在将信息发送到基于上下文的语言模型之前,帮助优先处理最相关的信息。
超越纯文本:Contextual AI 现在可以读取图表并连接数据库
虽然新发布的 GLM 专注于文本生成,但 Contextual AI 的平台最近增加了对多模态内容的支持,包括图表、图示和来自 BigQuery、Snowflake、Redshift 和 Postgres 等流行平台的结构化数据。
"企业中最具挑战性的问题是在非结构化和结构化数据的交叉点上,"Kiela 指出。"我最兴奋的是结构化和非结构化数据的交叉点。大型企业中最令人兴奋的问题正好处于结构化和非结构化的交叉点上,那里有一些数据库记录、一些交易、可能还有一些政策文档和其他各种内容。"
据 Kiela 称,该平台已经支持各种复杂的可视化,包括半导体行业的电路图。
Contextual AI 的未来计划:为日常业务创建更可靠的工具
Contextual AI 计划在 GLM 发布后不久发布其专门的重排序组件,随后扩展文档理解功能。该公司还在开发具有更多主动能力的实验性功能。
Contextual AI 由 Kiela 和 Amanpreet Singh 于 2023 年创立,他们此前在 Meta 的基础 AI 研究 (FAIR) 团队和 Hugging Face 工作。该公司已经获得了包括汇丰银行、高通和经济学人在内的客户。该公司将自己定位为帮助企业最终实现其 AI 投资的具体回报。
"对于那些可能面临压力要开始从 AI 获得投资回报的公司来说,这真的是一个机会,可以开始寻找更专业的解决方案来真正解决他们的问题,"Kiela 说。"这其中的一部分确实是拥有一个基于上下文的语言模型,它可能比标准语言模型更无聊,但它真的很擅长确保它基于上下文,你可以真正信任它来完成工作。"
好文章,需要你的鼓励
大数据可观测性初创公司Monte Carlo Data推出全新Agent Observability产品,为AI应用提供全方位数据和AI可观测性。该工具帮助团队检测、分类和修复生产环境中AI应用的可靠性问题,防止代价高昂的"幻觉"现象,避免客户信任度下降和系统宕机。新产品采用大语言模型作为评判器的技术,能够同时监控AI数据输入和输出,提供统一的AI可观测性解决方案。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
网络安全公司Aikido披露了迄今最大规模的npm供应链攻击事件。攻击者通过钓鱼邮件获取维护者账户凭证,向18个热门JavaScript包注入恶意代码,这些包每周下载量超过26亿次。恶意代码专门劫持加密货币交易,监控浏览器API接口将资金转移至攻击者地址。受影响的包括chalk、debug等广泛使用的开发工具库。虽然攻击在5分钟内被发现并及时公开,但专家警告此类上游攻击极具破坏性,可能与朝鲜黑客组织相关。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。