超大规模数据仓库供应商 Ocient 今日宣布,其通过 B 轮融资第二次扩展,共筹得 4210 万美元,以加速开发和交付针对高成本且笨重的运营数据和 AI 工作负载的能效解决方案。
这笔资金不仅充实了这家芝加哥初创企业已颇为充裕的资金储备;更强化了其使命——在企业担心数据中心不断飙升的电费之际,使超大规模分析变得更加经济和环保。
新一轮融资使该公司的总融资额达到 1.594 亿美元。此次最新融资由关注气候问题的投资者如 Blue Bear Capital 和 Allstate Strategic Ventures 领投——这表明投资者如今视数据平台效率既是性能问题,也是气候问题。
Ocient 首席执行官 Chris Gladwin 在接受 VentureBeat 采访时表示,Ocient 的架构在处理多拍字节级工作负载方面已经实现了 “ten-to-one price-performance gains” ,且计划将这一优势推广到从汽车遥测到气候建模等新领域。该初创企业已连续三年实现收入翻倍,并任命前 Loft Orbital 空间基础设施公司的首席财务官 Henry Marshall 担任其财务管理,表明 Ocient 正步入正式的增长阶段。
以气候经济学为框架的融资回合
这笔 4210 万美元的追加融资,紧随 2024 年3月筹集的 4940 万美元之后,使 Ocient 的累计投资资本达到 1.19 亿美元,并实现了 109% 的同比收入增长。除了新投资者外,该公司还获得了 Greycroft 和 OCA Ventures 的支持,而 Buoyant Ventures 则因其 “differentiated approach to delivering energy-efficient analytics” 而支持此次扩展。Gladwin 将这轮融资与更广泛的使命联系在一起,他表示:“Enterprises are grappling with complex data ecosystems, energy availability, and the pressure to control costs while proving business value。”
超大规模分析为何遇到瓶颈
现代数据仓库在处理以 terabytes 计的数据集时运转良好。但数据量进一步增加时,网络和存储 I/O 成为了瓶颈,而非纯粹的 CPU 计算能力。正如 Gladwin 在接受 VentureBeat 采访时所言,“When datasets get bigger, the flow of data from storage to processing units becomes the true limiting factor。”
在 telco、ad-tech 和政府部署中,查询引擎必须扫描数万亿条记录,同时持续摄取不断涌入的数据流。传统的云架构将计算与对象存储分离,使大量数据在网络中传输,从而增加了延迟和能耗。随着企业将 AI 和 geospatial 工作负载层层叠加,这些成本还将进一步上升。
探秘 Ocient 的架构
Ocient 通过在计算单元旁边直接部署 NVMe SSDs,颠覆了传统云模式,这种架构被称为 Compute-Adjacent Storage Architecture (CASA)。公司联合创始人 Joe Jablonski 解释说,这种设计能够在通用设备上 “execute trillions of operations per second”。
与 CASA 搭配的是 MegaLane,这是一种高带宽内部互连网络,正如 Gladwin 所说,它可以 “keep a million parallel tasks in flight”。因此,Ocient 声称在 SQL 和机器学习 (ML) 工作负载上实现了 10x 的性价比提升,而在 geospatial 任务上则根据查询复杂性获得 3x 至 300x 的提升——这一数据在采访中也得到了 CEO 的重申。一直在线的数据摄取加上 “zero-copy” 的可靠性意味着企业可以在同一数据集上运行 ETL、临时 SQL 查询和 ML,而无需依赖不同的系统。
削减能耗,而不仅仅是成本
效率已成为新的竞争武器。Ocient 的案例研究显示,一个传统 telco 系统堆栈从 170 个节点缩减到 12 个富含 NVMe 的节点,将能耗降低到 12 kW——这意味着能耗、成本和占地面积均降低了 90%。公司还通过在第四代 AMD EPYC 处理器上认证其软件,后者每个机架可提供 3.5 倍更高的处理能力和 2 倍的内存吞吐量,进一步降低了每次查询所需的千瓦时数。
Gladwin 坦言:“Energy demand in data centers is accelerating; supply isn’t. Efficiency isn’t optional.” 这一论断引起了诸如 Blue Bear 等投资者的共鸣,其新成立的 200 million美元 气候基金专注于为高能耗基础设施提供机器智能解决方案。
市场吸引力与新前沿
Ocient 的客户群涵盖了电信运营商、情报机构、ad-tech 交易所以及处理大量交易数据的金融科技公司。今年,该公司推出了首个命名解决方案—— Ocient Data Retention and Disclosure System,以帮助电信供应商更快、更低能耗地满足法定披露要求。
Gladwin 表示,下一波增长浪潮将来自汽车传感器分析和气候智能建模,这些领域当前的工作流程依赖超级计算机;而 Ocient 的架构有望将这些成本至少降低 75%,从而使保险公司和农业企业能够更频繁地进行风险分析。
在超大规模领域竞争
Ocient 并不定位自己为生成式 AI 数据库。Gladwin 认为,已有众多公司服务于这一细分市场,而 Ocient 的核心优势依然是高容量、结构化分析。尽管如此,该数据仓库支持存储向量,并内置线性代数函数,同时路线图上也规划了相似性索引。与 Snowflake 和 Databricks 等云界领头羊相比,Ocient 的卖点在于当规模和并发性使得远程存储架构变得过于缓慢或昂贵时,便能展现优势。业内分析师表示,这一门槛通常出现在几百 terabytes 以上,但由于不断的数据摄取,telco 工作负载往往会更早达到这一水平。
灵活的部署方式
Ocient 赢得政府和 telco 项目的一个原因在于其灵活的部署方式。该平台既可作为适用于本地集群的软件部署,也可以作为公共云上的托管服务,或通过公司自有的 OcientCloud 交付。当数据-sovereignty 规则禁止使用外部 SaaS,或客户希望将计算能力靠近无线接入网络时,这一点尤为重要。
未来展望
Ocient 表示,这笔新资金将加速其研发进程,并资助在工程师团队和合作伙伴计划方面的投资以实现相应扩展。
Gladwin 在接受 VentureBeat 采访时表示:“Future growth will come from ideas no one’s thought of yet”,并指出气候模型就是这样一个初露端倪的领域。如果 Ocient 能够持续将 petabyte 难题转化为 sub-second 响应,同时降低成本和碳排放,那么围绕 CASA 所做的这场长达十年的赌注或将重新定义在数据饥渴型 AI 时代的 “enterprise scale” 含义。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。