Datadog即将发布一款升级版AI模型,该公司认为这将帮助其避免所谓的SaaS末日危机——客户使用人工智能构建自己的工具。
这家可观测性工具供应商已经创建了一个名为Toto-Open-Base的模型,根据公司的解释性论文显示,该模型拥有1.51亿个参数,基于超过2万亿个时间序列数据点进行训练——这显然是任何开放权重时间序列基础模型中最大的预训练数据集。用于训练该模型的所有数据都来自Datadog本身,是在运营其SaaS可观测性服务过程中收集的。
在与The Register的对话中,Datadog首席产品官李燕冰表示,公司正在评估其下一个模型,但将这一努力视为实现目标的手段。
"SaaS公司的角色是什么?"她问道,然后回答:"在其领域内进行创新。"
对于Datadog而言,这意味着创建一个特定于其领域——可观测性——的模型,而不是依赖通用的大语言模型。
李燕冰认为开发模型为Datadog带来两个好处。
一是人工智能成为其平台的一部分,而不需要客户在另一个服务上设置Token预算。另一个是更好的智能体,能够更有效地检测和预测异常。
她声称Datadog的站点可靠性智能体已经能够调查事件、提供根本原因分析并建议修复措施。
人工智能仍然是一个不稳定的领域,智能体也会犯错。因此The Register向李燕冰提出,关键IT系统的操作人员必须在让智能体建议更改其系统之前保持谨慎,更不用说在无监督的情况下执行这些更改。
她同意这个观点,并表示为了让AI系统赢得信任,它们的输出必须既可解释又可验证。她说,使用自己的模型使Datadog更容易做到这一点。这些模型还帮助公司创建了一个工具,可以在AI平台工作时监控它们,并能检测出它们产生幻觉输出的迹象。
"我不担心开发模型的竞争,而是应用它们,"她说,并补充说她认为用户会应用Datadog的模型,因为它们允许持续监控健康状况——有点像可穿戴设备。
"今天,当我们看医生时,这是一个昂贵的麻烦,所以我们只在生病时才去看医生,"她说。装满传感器的智能手表,加上分析这些信号的AI,意味着现在可以检测和预测疾病。
李燕冰认为Datadog提供了从偶尔诊断到持续诊断的类似变化,可以避免SaaS末日危机。
"在这种转变中容易受到冲击的是点工具,当客户不在你的工具中采取行动时,"她说。"这些东西更容易被颠覆。"
她认为人工智能已经让Datadog超越了SaaS,成为一个平台。
每个供应商都渴望获得这种地位,因为这让客户更难离开。也许人工智能有一天能解决这个问题。
Q&A
Q1:Datadog的Toto-Open-Base模型有什么特点?
A:Toto-Open-Base是Datadog创建的AI模型,拥有1.51亿个参数,基于超过2万亿个时间序列数据点进行训练,这是任何开放权重时间序列基础模型中最大的预训练数据集。所有训练数据都来自Datadog自身的SaaS可观测性服务运营过程。
Q2:什么是SaaS末日危机?Datadog如何应对?
A:SaaS末日危机指客户使用AI构建自己的工具,不再依赖SaaS服务商。Datadog通过开发专门针对可观测性领域的AI模型来应对,使AI成为平台的一部分,并提供更好的异常检测和预测智能体,从而从SaaS转型为平台。
Q3:Datadog的AI智能体能做什么?安全性如何保障?
A:Datadog的站点可靠性智能体能够调查事件、提供根本原因分析并建议修复措施。为保障安全性,公司确保AI输出既可解释又可验证,并开发了监控工具来检测AI平台产生幻觉输出的迹象,避免在无监督情况下执行系统更改。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。