随着大语言模型能力持续增强,幻觉问题却依然难以彻底解决。即便是最顶尖的模型,也难免出现错误。尽管目前已有一些检测手段,但业界仍在探索最优解。
初创公司Probably近日完成900万美元种子轮融资,领投方为知名风险投资机构Andreessen Horowitz,其目标正是构建一套更为严谨的错误拦截机制。
创始人Peter Elias表示,公司的核心目标是在幻觉内容和简单事实错误到达用户之前将其拦截,并实现99.99%的准确率。这一精度在确定性系统中较为常见,但对AI而言却极难达到。事实上,要将大语言模型提升至这一准确率水平,需要对AI工程的许多基本假设进行重新审视。
Probably推出的首款产品是一款数据科学工具,专为从复杂数据集中快速提取答案而设计。每条结果均附带引用来源和完整的推导审计追踪记录,这一做法在AI工具领域正日益普及。
然而,要防止错误渗入摘要,需要一套复杂的约束体系。Elias将其形容为"数据科学机甲套装":大语言模型生成的初步答案会经过确定性验证系统的核查,不符合数据集的结果将被直接驳回。关键在于,该大语言模型已针对验证器进行专项训练,整个系统在速度与准确性上均经过优化。
"我们在构建这套系统时发现,约束工程做得越好,对模型本身的能力要求就越低,"Elias说,"只要将上下文信息足够精确地提炼出来,模型就不需要费太大力气便能给出正确答案。本质上,这是一个持续降低歧义性的过程。"
这一机制使Probably的数据科学工具得以运行在规模更小的AI模型上。Elias透露,当前版本使用的模型"比前沿模型低四个级别",因此可以部署在本地硬件(即普通台式机而非数据中心)上运行,从而大幅降低AI使用中与Token相关的成本。
在Token成本持续攀升、众多客户重新审视AI预算的当下,这一思路颇具吸引力。而Elias的愿景并不止步于数据科学领域——同一套引擎可延伸至会计、医疗等场景,正如他所说,"任何对精准度要求较高的应用场景"均可适用。
"令我真正感到有趣的是,那些大型AI实验室甚至都没有尝试去做这件事,"Elias说,"因为他们在激励机制上倾向于反其道而行——你每多纠正一次模型,他们就多赚一次钱。"
Q&A
Q1:Probably开发的AI系统是如何防止大语言模型产生幻觉错误的?
A:Probably采用了一套"数据科学机甲套装"约束体系,大语言模型生成的初步答案会经过确定性验证系统核查,不符合数据集的结果会被直接驳回。同时,大语言模型已针对该验证器进行专项训练,整体系统在速度与准确性方面均经过优化,目标是实现99.99%的准确率,确保错误在到达用户前被拦截。
Q2:Probably的数据科学工具为什么可以在本地硬件上运行?
A:由于Probably的约束工程体系足够完善,对底层模型的能力要求大幅降低。目前使用的模型比业界前沿模型低四个级别,因此无需依赖数据中心,普通台式机即可运行,从而显著减少了与Token相关的使用成本,在当前Token成本上涨的背景下具有明显优势。
Q3:Probably的技术除了数据科学领域,还能应用在哪些场景?
A:Probably的核心引擎具备较强的可扩展性,可延伸至会计、医疗服务等多个领域。创始人Peter Elias将其定位为"任何对精准度要求较高的应用场景",只要业务对准确性有严格要求,该技术框架理论上均可适配。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。