人工智能服务本质上是一场大数据的较量:你需要大量数据来构建模型,而模型又需要高效的方式来摄取和输出数据以实现正常运作。
一家名为 Hammerspace 的公司构建了一个系统,帮助人工智能及其他组织轻松挖掘数据宝库,并赢得了显著的应用反馈。如今,随着其客户中包括 Meta 和国防部以及其他知名企业,Hammerspace 宣布获得1亿美元融资,以进一步拓展业务。
据接近该公司的消息人士向 TechCrunch 报道,此次融资被称为 “战略风险投资轮”,使 Hammerspace 的估值超过5亿美元。其投资方包括 Altimeter Capital 和 ARK Invest,以及其他未披露的战略投资者。这些投资者被形容为 “高度参与型”。
此次融资值得注意,因为它凸显了围绕市场对人工智能公司价值认同而形成的生态系统,这些公司正筹集数十亿美元以构建资本密集型业务并满足巨大的市场需求。
然而,正如 Altimeter 的合伙人 Jamin Ball 所指出,“没有数据战略就没有人工智能战略。” 因此,构建支持这一数据战略的平台的公司本身也能变得极具价值。
Hammerspace 表示,迄今为止其大部分增长均来自口碑传播。该公司将利用部分融资资金,通过销售和市场推广更加积极地扩大业务。
Hammerspace 曾从 Prosperity7 Ventures ( 沙特阿美的风险投资部门)、ARK Invest、Pier 88 Hedge Fund 以及其他未透露姓名的投资者那里筹集了5600万美元融资。此前,该公司由其首席执行官兼联合创始人 David Flynn 自筹资金,而他正是因在 Linux、超级计算机和闪存计算领域的早期工作而被公认为先驱技术专家。
如今有大量公司致力于填补当今数据市场中存在的巨大缺口。这里的 “巨大” 是一个关键字,因为与 Hammerspace 竞争的公司中,就包括 Dell、Pure Storage、Weka 以及其他在数据编排、文件管理、数据管道和数据管理领域的众多企业。
这一缺口大致表现为:我们今天用于工作和生活的各种应用及其他数字服务会生成大量潜在有价值的数据,但这些数据宝库通常存在于各自为政的孤岛中——它们零散分布于多个 ( 竞争性的 ) 云及其他环境中,且常常是非结构化的,这使得对数据的利用成为一大挑战。
这种缺口在广泛的企业应用场景中都存在,但目前最大的应用领域或许就是人工智能。
Flynn 在采访中表示,“人工智能正是催生我所构建之产品需求的完美风暴。”
正如我们之前所提到的,Hammerspace 的名称来源于卡通和漫画中首次出现的概念,即角色们能够凭空拿出他们所需的物品。
实际上,这正是 Hammerspace 所实现的功能。该初创公司提供了一种方法,使得大量数据——无论其存储位置或使用方式——都能在组织需要时及时获取,而在不需要时则将其隐藏,避免干扰。
正如 Flynn 所描述,企业通常处理数据的方式是将数据从原处迁移到需要处理的位置。“你必须在每个系统上安装软件,”他说,“这真是一团糟。”
而且这种方式极其缓慢。“人工智能军备竞赛就像一场短跑比赛,”他说。随着 “价值到达时间” 成为这些公司的关键优先事项,Hammerspace 正在吸引许多对闲置时间感到焦虑的客户。
Flynn 在闪存计算方面的背景是 Hammerspace 实现突破的核心。该系统基于 Linux 构建,而 Linux 在数据库领域随处可见,他认识到在不同地点组织数据的关键在于构建一个文件系统来实现这一目标。
这一关键技术正是 Linux 内核 NFS 客户端,它在众多数据系统中普遍存在。Hammerspace 的联合创始人兼首席技术官 Trond Myklebust 曾是 Linux 内核 NFS 客户端的主要开发者,而该初创公司至今仍是这一组件的主要维护者。公司所构建的用于管理、迁移和编排数据的 “文件系统”,正是基于 Linux 中这一特定实现。正如 Flynn 所言,“它的功能在业界独树一帜。”
从长远来看,Flynn 去年曾表示 Hammerspace 可能最早于今年公开上市。尽管这一时间表现已发生改变,但方向依然未变。Flynn 表示,“是的,IPO 绝对是 Hammerspace 的既定战略,我们可能仍需大约两年的时间(视市场状况而定)。”
更新说明:Nvidia、Palantir 和 Tesla 并非 Hammerspace 的客户;它们均为 Altimeter 过去的投资案例。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。