ChatSee.AI公司专注于为自主人工智能系统提供失败智能层,近日完成650万美元种子轮融资。
本轮融资由True Ventures领投,First Rays Venture Partners、Seven Hills Ventures及多位行业资深人士参与跟投。"不管企业是否愿意,AI已经进入企业内部。"联合创始人兼首席执行官Sekhar Sarukkai在接受媒体采访时表示。
目前,AI智能体已通过微软Copilot、Databricks Genie、Snowflake、Workday、OpenAI、Anthropic等平台,以及企业内部自建系统,陆续进驻各大企业团队。与此同时,OpenClaw、NemoClaw、Hermes等开源项目构成的生态也在持续壮大。智能体已成为企业运营中不可回避的现实。
随着企业将智能体从试点阶段推向生产环境,治理与管控的核心问题也发生了转变——从"能否在模拟环境中构建和测试",演变为"能否将其托付给真实的客户和员工工作"。
"大家都意识到,这是一种不确定性基础设施,光靠测试根本无法规避所有故障。"Sarukkai补充道。
他表示,ChatSee正是为了填补这一"信心缺口"而入局,其核心产品被定义为"失败智能层"——这一模型能够在智能体出现故障时进行观测,保留故障发生时的完整上下文,记录问题的修复方式,并将这些知识反馈回系统,从而帮助未来的智能体规避同类错误。
ChatSee的愿景不止于可观测性,更在于实现大规模的自我学习与自适应能力。
在技术架构上,ChatSee基于逾1万条企业智能体真实故障案例构建了一套分类体系,将故障细分为157个类别,涵盖工具调用失败,以及范围界定、推理和执行等各阶段的故障。这一分类体系将观测和纠错的范围,从业界最初关注的幻觉问题,扩展到了一系列同样细微却影响深远的问题。
智能体落地的真实挑战
过去几年间,企业已从利用AI驱动聊天机器人,逐步演进到部署能够自主行动、拆解任务、处理长周期工作的全自主智能体。许多智能体已被直接嵌入核心业务流程,而其中的细微问题往往难以即时察觉——一旦微小的偏差在大规模运行中累积,极易演变为严重事故。
"这些不是传统意义上的对话式客服智能体,"Sarukkai说,"它们真正在支撑核心业务的运转。"
在许多实际场景中,AI智能体已被部署于电商和金融服务领域,承担商品目录校验、定价、交易标注、商户代码分类等决策任务。试想,如果一个智能体对商户代码的判断出现细微偏差并在系统中持续扩散,后果将不堪设想。而当人工介入并纠正问题后,这一纠正信息需要同步传递给系统中所有协同运作的智能体。
"可以把它理解为一个失败知识库……智能体可以在平台层面配置为自动参考这个知识库。"Sarukkai解释道。
这意味着,一旦系统中某个智能体遭遇问题并经过人工纠正,或是反复出现工具调用失败、行为变化导致API调用中断等情况,它将完成自我修正。如果这些修正属于关键性问题或呈现出趋势性特征,相关信息将被写入中央知识库,供其他智能体调阅,并逐步沉淀为未来的最佳实践。
"智能不会流失,"Sarukkai阐释道,"我们持续积累来自人类反馈和系统自身判断的失败智能。"
ChatSee的核心判断是:企业正在构建和部署越来越多的AI智能体,而围绕智能体的工具链生态仍在追赶之中。Voker等初创公司正在打造平台,用于了解智能体在真实环境中的表现;Respan则专注于跨智能体试验的主动可观测性与根因分析;Monte Carlo Data推出的AI可观测性产品,也显示出数据可观测性厂商正在向AI输入、输出及质量监控领域延伸。
"许多最重要的AI风险都在运行时产生,发生在智能体自主运作的过程中。"研究与咨询机构TAG-infosphere首席执行官Eduard Amoroso博士表示,"由于这些系统具有概率性和自适应性,仅靠静态测试远远不够,这正推动着企业工作流对持续运行时保障能力的迫切需求。"
ChatSee将行业趋势定位为三个层次的演进:可观测性告诉团队发生了什么,评估告诉团队智能体表现如何,而ChatSee则致力于成为记录"什么失败了、为何失败、如何防止复发"的记忆层。
整个行业正朝着自我学习、自我修复的智能体方向演进。随着更多智能体协同工作、以集群方式运作,并与人类并肩协作,智能体之间相互协作、汲取历史教训的能力将迎来更广阔的发展空间。
Q&A
Q1:ChatSee的"失败智能层"具体是如何工作的?
A:ChatSee的失败智能层能够在AI智能体出现故障时自动观测并保留故障发生时的完整上下文,记录问题的修复方式,并将这些知识反馈回系统。当某个智能体遇到问题并经人工纠正后,相关修正信息会被写入中央知识库,供系统中所有其他智能体调阅参考,从而避免同类错误再次发生。整个过程兼顾人工反馈与系统自主判断,实现持续的智能积累。
Q2:ChatSee的故障分类体系包含哪些内容?
A:ChatSee基于超过1万条企业AI智能体的真实故障案例,构建了一套涵盖157个类别的故障分类体系。这些类别涵盖工具调用失败,以及范围界定、推理、执行等各阶段出现的故障。该体系将观测范围从最初关注的幻觉问题,扩展到更广泛的细微但同样关键的问题类型,帮助企业更全面地识别和管控智能体风险。
Q3:企业在将AI智能体从测试推向生产环境时,面临哪些主要挑战?
A:核心挑战在于信任问题。企业意识到AI智能体是一种不确定性基础设施,无法仅靠测试规避所有故障。当智能体被嵌入电商定价、金融交易分类等核心业务时,细微的判断偏差可能在大规模运行中迅速放大。此外,智能体出错后的纠正信息如何同步到整个系统,也是亟待解决的关键问题。
好文章,需要你的鼓励
就在Insta360发布旗舰新品Luna Ultra相机的同一天,大疆DJI随即提起两项专利侵权诉讼,指控其抄袭Osmo Pocket系列核心技术。Insta360在24小时内迅速反击,同样提出两项诉讼,指控DJI侵犯其云台稳定、位置成像等专利。这场四起诉讼的法律战,折射出两家公司产品线不断交叉、争夺同一创作者市场的深层竞争现实。
香港理工大学提出"光学推理",将AI推理步骤渲染为图片代替文字,在五款顶级AI模型测试中平均节省28%令牌,效率近两倍。
谷歌母公司Alphabet CEO桑达尔·皮查伊在斯坦福大学2026届毕业典礼上发表演讲。他分享了三条人生建议:选择乐观主义,以"加州黄金视角"重构对世界的认知;勇于挑战难事,以Chrome浏览器从"四舍五入的误差"到全球主流浏览器的逆袭经历为例;以及在条件相当时,选择令自己兴奋的事情。他同时强调,人生中真正关键的抉择并不多,无需对每个时刻都施加过多压力。
卡内基梅隆大学等机构发现,16%的主流AI评测任务存在可被绕过的漏洞,并提出三智能体自动防御方案,将KernelBench攻击成功率从76%降至0%。