Contextual AI 今天发布了其基于上下文的语言模型 (GLM),声称通过在真实性关键基准测试中超越 Google、Anthropic 和 OpenAI 的领先 AI 系统,实现了业内最高的事实准确性。
这家由检索增强生成 (RAG) 技术先驱创立的初创公司报告称,其 GLM 在 FACTS 基准测试中获得了 88% 的事实准确性得分,相比之下,Google 的 Gemini 2.0 Flash 为 84.6%,Anthropic 的 Claude 3.5 Sonnet 为 79.4%,OpenAI 的 GPT-4o 为 78.8%。
虽然大语言模型已经改变了企业软件,但事实不准确性——通常被称为"幻觉"——仍然是企业采用的一个关键挑战。Contextual AI 旨在通过创建一个专门为企业 RAG 应用优化的模型来解决这个问题,因为在这些应用中准确性至关重要。
"我们知道解决方案的一部分将是一种叫做 RAG 的技术——检索增强生成,"Contextual AI 的 CEO 兼联合创始人 Douwe Kiela 在接受 VentureBeat 独家采访时表示。"我们之所以知道这一点,是因为 RAG 最初是我的想法。这家公司的真正目标是以正确的方式实现 RAG,将 RAG 提升到新的水平。"
该公司的重点与 ChatGPT 或 Claude 等通用模型有很大不同,后者旨在处理从创意写作到技术文档的各种任务。相反,Contextual AI 的目标是那些事实精确性比创意灵活性更重要的高风险企业环境。
"如果你在一个高度监管的行业的企业环境中遇到 RAG 问题,你对幻觉完全零容忍,"Kiela 解释道。"对营销部门有用的通用语言模型,并不适用于对错误更加敏感的企业环境。"
一份基准比较显示,Contextual AI 的新型基于上下文的语言模型 (GLM) 在事实准确性测试中超越了来自 Google、Anthropic 和 OpenAI 的竞争对手。该公司声称其专业化方法减少了企业环境中的 AI 幻觉。(来源:Contextual AI)
Contextual AI 如何将"基于上下文"作为企业语言模型的新标准
"基于上下文"的概念——确保 AI 响应严格遵循上下文中明确提供的信息——已成为企业 AI 系统的关键要求。在金融、医疗保健和电信等受监管行业中,企业需要能够提供准确信息或明确承认不知道某些内容的 AI。
Kiela 举例说明了这种严格的基于上下文如何运作:"如果你给标准语言模型一个配方或公式,并在某处说'但这只适用于大多数情况',大多数语言模型仍然会假设它是普遍适用的给出配方。但我们的语言模型会说,'实际上,它只说这适用于大多数情况。'它捕捉到了这个额外的细微差别。"
能够说"我不知道"对企业环境来说是一个关键特性。"如果你考虑到企业环境,这实际上是一个非常强大的功能,"Kiela 补充道。
Contextual AI 的 RAG 2.0:处理公司信息的更集成方式
Contextual AI 的平台建立在其称之为"RAG 2.0"的方法之上,这种方法超越了简单连接现成组件的做法。
"典型的 RAG 系统使用固定的现成模型进行嵌入,使用向量数据库进行检索,使用黑盒语言模型进行生成,通过提示或编排框架将它们拼接在一起,"根据公司声明。"这导致了生成式 AI 的'弗兰肯斯坦怪物':各个组件在技术上都能工作,但整体远非最优。"
相反,Contextual AI 对系统的所有组件进行联合优化。"我们有这个检索器混合组件,这真的是一种进行智能检索的方式,"Kiela 解释道。"它查看问题,然后像最新一代模型一样思考,首先它规划检索策略。"
这整个系统与 Kiela 称之为"世界上最好的重排序器"协同工作,在将信息发送到基于上下文的语言模型之前,帮助优先处理最相关的信息。
超越纯文本:Contextual AI 现在可以读取图表并连接数据库
虽然新发布的 GLM 专注于文本生成,但 Contextual AI 的平台最近增加了对多模态内容的支持,包括图表、图示和来自 BigQuery、Snowflake、Redshift 和 Postgres 等流行平台的结构化数据。
"企业中最具挑战性的问题是在非结构化和结构化数据的交叉点上,"Kiela 指出。"我最兴奋的是结构化和非结构化数据的交叉点。大型企业中最令人兴奋的问题正好处于结构化和非结构化的交叉点上,那里有一些数据库记录、一些交易、可能还有一些政策文档和其他各种内容。"
据 Kiela 称,该平台已经支持各种复杂的可视化,包括半导体行业的电路图。
Contextual AI 的未来计划:为日常业务创建更可靠的工具
Contextual AI 计划在 GLM 发布后不久发布其专门的重排序组件,随后扩展文档理解功能。该公司还在开发具有更多主动能力的实验性功能。
Contextual AI 由 Kiela 和 Amanpreet Singh 于 2023 年创立,他们此前在 Meta 的基础 AI 研究 (FAIR) 团队和 Hugging Face 工作。该公司已经获得了包括汇丰银行、高通和经济学人在内的客户。该公司将自己定位为帮助企业最终实现其 AI 投资的具体回报。
"对于那些可能面临压力要开始从 AI 获得投资回报的公司来说,这真的是一个机会,可以开始寻找更专业的解决方案来真正解决他们的问题,"Kiela 说。"这其中的一部分确实是拥有一个基于上下文的语言模型,它可能比标准语言模型更无聊,但它真的很擅长确保它基于上下文,你可以真正信任它来完成工作。"
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
马里兰大学研究团队通过测试25个大型AI模型发现,即使最先进的AI评判系统在需要同时考虑多个标准时也会出现严重偏差,准确率仅32%-53%。研究构建了Multi-Crit评测基准,揭示了AI在多标准权衡中的根本性局限,为改进AI评判系统的公平性和可靠性提供了重要参考,对AI在内容审核、产品评价等应用场景具有重要指导意义。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
南京理工大学团队开发ViLoMem框架,首次实现AI的双流记忆机制,分别处理视觉和逻辑错误。该系统模仿人类认知,让AI能从错误中持续学习,在数学推理等多模态任务中显著提升准确率,为AI从被动工具向主动学习伙伴的转变提供了重要技术突破。