2020 年,Dbt Labs 的数据分析工具还只是费城一家小型咨询公司的副业项目,虽然拥有忠实的用户群,但收入微不足道。CEO Tristan Handy 向 Forbes 透露,五年后的今天,这款工具已成为一家快速发展的企业核心产品,拥有超过 5,000 个付费客户,年经常性收入超过 1 亿美元。
近十年前,Handy 因为作为数据分析师使用笨重软件的frustration,创立了这家公司 (之前名为 Fishtown Analytics)。尽管 Amazon Redshift 和 Fivetran 等云端数据工具已经流行,但开发者们并不知道如何充分利用它们,于是他开始创办咨询业务来提供帮助。
在与客户合作的过程中,Handy 决定开发一个工具,让数据清理和格式转换这些繁琐的任务更像软件工程 - 数据工程师可以编写代码和运行测试,而不是"用胶带东拼西凑"。这可以让经常因任何改动而容易崩溃的内部系统变得更可靠和高效。这反过来可以帮助企业更快地梳理杂乱无章的数据集,找到模式和数据点来辅助决策。Handy 说,这是咨询公司的"最佳秘密武器"。
随后公司将 Dbt Core (全称"data built tool") 开源,希望为咨询服务带来免费宣传。但它意外走红并持续获得稳定采用;2020 年 Fishtown 转型并更名为 Dbt Labs,成为一家软件公司。
其企业级数据管理工具 Dbt Cloud 和 Dbt Core 目前已被约 50,000 个团队使用,过去两年收入增长约 80%。Conde Nast、Nasdaq 和 Siemens 等公司都在使用 Dbt Labs 的产品来简化和格式化数据并从中获取新信息。
"他们已经从初创企业成长为规模化企业,"在 2020 年领投该公司 3,000 万美元 B 轮融资的 Sequoia 合伙人 Matt Miller 说。多年来,该公司已从 Sequoia 及 Altimeter、Amplify Partners 和 Andreessen Horowitz 等顶级投资者那里筹集了超过 4 亿美元的资金,在 2022 年估值达到 42 亿美元。
在全球疫情期间,随着公司向云端迁移并数字化数据,该公司获得了初步增长。现在又一个趋势正在推动公司发展:人工智能。企业领导者正在构建新的生成式 AI 应用,并寻找方法在内部利用 AI 提高效率。这些努力的核心是优质、干净的数据,这给了 Dbt 一个新机会,提供工具帮助使数据更容易被模型摄取。"AI 确实是我们的一个利好因素,"Handy 说。
Miller 表示,他最初是通过他投资组合中另一个数据巨头了解到这家公司的:收入达 28 亿美元 (2024 年) 的 Snowflake。Dbt 的扩张战略之一是作为 Databricks 和 Snowflake 等不同数据仓库的上层,这些仓库存储和处理海量数据,并"成为跨平台运作的大脑,"Miller 说。今年 1 月,该公司收购了 SDF Labs,这家公司开发分析数据在平台之间流动的软件。
Dbt Labs 最近为其产品增加了新功能,帮助人们使用自然语言提示来询问数据相关问题,并自动化数据工程师工作的某些部分,如测试数据质量和生成文档。这家成立九年的公司计划继续专注于其细分领域的专业用户,为数据从业者添加更多功能。CEO Handy 表示,这些用户在工具方面一直"得不到充分服务"。
好文章,需要你的鼓励
北京交通大学与西蒙弗雷泽大学联合研发的混合神经-MPM方法实现了实时交互式流体模拟。该方法巧妙结合神经物理学与传统数值求解器,在低时空分辨率下运行神经网络并设置保障机制自动切换到MPM,显著降低计算延迟同时保持高保真度。团队还设计了基于扩散模型的控制器,支持用户通过简单草图直观控制流体行为,为游戏、VR和设计领域提供了实用解决方案。
这项研究介绍了EgoZero,一种创新的机器人学习系统,能够仅通过Project Aria智能眼镜捕获的人类示范数据,训练出零样本迁移的机器人操作策略。研究团队提出了一种形态无关的状态-动作表示方法,使用点集来统一人类和机器人数据,并开发了从原始视觉输入中提取准确3D表示的技术。在没有任何机器人训练数据的情况下,EgoZero在7种真实世界操作任务上实现了70%的成功率,展示了强大的泛化能力,为解决机器人学习中的数据瓶颈问题提供了新思路。
FLAME-MoE是卡内基梅隆大学团队开发的首个全透明混合专家语言模型研究平台,包含7个规模从3800万到17亿活跃参数的模型。它采用每层64位专家、top-8选择和2位共享专家的架构,公开所有训练数据、代码和检查点。实验显示,FLAME-MoE比相同计算量的密集模型提升3.4个百分点,并揭示了三个关键发现:专家逐渐专注于特定词汇子集,专家协同激活保持稀疏多样,路由行为在训练早期就趋于稳定。这一平台为MoE模型的系统研究提供了前所未有的开放基础。
这篇论文介绍了ModernGBERT,一个由维尔茨堡大学研究团队开发的高性能德语编码器模型家族(1.34亿和10亿参数版本)。研究将ModernBERT的创新架构应用于德语,同时通过LLM2Vec方法将德语解码器模型转换为编码器以进行对比研究。在SuperGLEBer和MTEB等基准测试中,ModernGBERT 10亿参数模型不仅超越了之前最先进的德语编码器,还在性能和参数效率方面优于转换后的编码器。研究团队还证明了更大模型能有效利用大规模单语语料库,为德语自然语言处理提供了全透明、高性能的资源。