数据产业正处于剧烈变革的边缘。
市场正在整合。如果过去两个月的交易流量具有指标意义——Databricks以10亿美元收购Neon,Salesforce以80亿美元收购云管理公司Informatica——那么更多收购的势头正在形成。
被收购的公司在规模、成立时间和数据堆栈内的专注领域可能有所不同,但它们都有一个共同点:这些公司被收购,是希望被收购的技术能成为推动企业采用AI的关键缺失环节。
从表面来看,这种策略是有道理的。
AI公司和AI应用的成功取决于对优质底层数据的访问。没有这些数据,就没有价值——这是企业风投共同的信念。在2024年12月进行的TechCrunch调查中,企业风投表示数据质量是AI初创企业脱颖而出并成功的关键因素。虽然这些交易中涉及的一些公司不是初创企业,但这种观点仍然成立。
Gaurav Dhillon——Informatica的联合创始人和前首席执行官,目前担任数据集成公司SnapLogic的董事长兼首席执行官——在最近接受TechCrunch采访时呼应了这一观点。
"企业数据管理和流动方式正在发生彻底重置,"Dhillon说。"如果人们想抓住AI发展的机遇,他们必须大幅重新构建数据平台。我认为这就是你看到所有这些数据收购的原因,因为这是制定稳健AI战略的基础。"
但是,在当今快速创新的市场中,这种收购ChatGPT之前构建的公司的策略是否是提高企业AI采用率的方法?这还不清楚。Dhillon也有疑虑。
"没有人生来就懂AI;这只有三年历史,"Dhillon说,指的是当前的后ChatGPT AI市场。"对于大公司来说,要提供AI创新来重新定义企业,特别是智能体企业,需要大量重新工具化才能实现。"
**数据格局分化**
数据产业在过去十年中发展成为一个庞大而分散的网络——这使得它成熟,适合整合。它所需要的只是一个催化剂。仅从2020年到2024年,根据PitchBook数据,超过3000亿美元投资于数据初创企业,涉及超过24,000笔交易。
数据产业没有免受其他行业(如SaaS)趋势的影响,过去十年的风投激增导致许多初创企业获得风险投资家的资金,这些投资家只针对一个特定领域,或者在某些情况下围绕单一功能构建。
当前行业标准是将一堆不同的数据管理解决方案捆绑在一起,每个解决方案都有自己的特定焦点,但当你希望AI在你的数据中爬行寻找答案或构建应用程序时,这种方法就行不通了。
大公司寻求收购能够插入并填补其数据堆栈现有空白的初创企业,这是有道理的。这一趋势的完美例子是Fivetran在5月收购Census——是的,这是以AI的名义进行的。
Fivetran帮助公司将数据从各种来源移动到云数据库。在其13年的业务中,它不允许客户将这些数据移回所述数据库,这正是Census提供的服务。这意味着在此次收购之前,Fivetran客户需要与第二家公司合作来创建端到端解决方案。
需要明确的是,这并不是要对Fivetran投下阴影。在交易时,Fivetran的联合创始人兼首席执行官George Fraser告诉TechCrunch,虽然在这些仓库中移入和移出数据似乎是同一枚硬币的两面,但实际上并不那么简单;公司甚至尝试并放弃了解决这个问题的内部解决方案。
"从技术角度来说,如果你查看这些服务底层的代码,它们实际上相当不同,"Fraser当时说。"要做到这一点,你必须解决一系列相当不同的问题。"
这种情况有助于说明数据市场在过去十年中是如何转变的。对于Sanjeev Mohan——前Gartner分析师,现在经营自己的数据趋势咨询公司SanjMo——这些类型的场景是当前整合浪潮的重要驱动力。
"这种整合是由客户对大量不兼容产品的厌倦推动的,"Mohan说。"我们生活在一个非常有趣的世界里,有很多不同的数据存储解决方案,你可以使用开源,可以使用Kafka,但我们失败的一个领域是元数据。数十种这些产品正在捕获一些元数据,但要完成它们的工作,存在重叠。"
**对初创企业有利**
Mohan说,更广泛的市场也在这里发挥作用。数据初创企业正在努力筹集资本,Mohan说,退出比不得不关闭或承担债务要好。对于收购方来说,增加功能给他们更好的定价杠杆和对同行的优势。
"如果Salesforce或Google不收购这些公司,那么它们的竞争对手可能会,"PitchBook高级新兴技术分析师Derek Hernandez告诉TechCrunch。"最好的解决方案目前正在被收购。即使你有获奖的解决方案,我不知道保持私有的前景最终会胜过去更大的收购方。"
这一趋势为被收购的初创企业带来了巨大好处。风投市场渴望退出,目前IPO的安静期没有给他们太多机会。被收购不仅提供了退出,而且在许多情况下,它还为这些创始团队提供了继续构建的空间。
Mohan表示同意,并补充说许多数据初创企业正在感受到当前市场在退出和风险投资资金缓慢恢复方面的痛苦。
"在这个时候,收购对他们来说是一个更有利的退出策略,"Hernandez说。"所以我认为,双方都非常有动力到达终点线。我认为Informatica是一个很好的例子,即使与Salesforce去年与他们谈判的价格相比有所下降,但根据他们的董事会,这仍然是最好的解决方案。"
**接下来会发生什么**
但对于这种收购策略是否能实现买家的目标,疑虑仍然存在。
正如Dhillon指出的,被收购的数据库公司并不一定是为了轻松适应快速变化的AI市场而构建的。此外,如果拥有最好数据的公司赢得AI世界,那么数据和AI公司成为独立实体还有意义吗?
"我认为很多价值在于将主要AI参与者与数据管理公司合并,"Hernandez说。"我不知道独立的数据管理公司是否特别有动力保持这种状态,并且像在企业和AI解决方案之间充当第三方。"
好文章,需要你的鼓励
当前企业面临引入AI的机遇与挑战。管理层需要了解机器学习算法基础,包括线性回归、神经网络等核心技术。专家建议从小规模试点开始,优先选择高影响用例,投资数据治理,提升员工技能。对于影子IT现象,应将其视为机会而非问题,建立治理流程将有效工具正式化。成功的AI采用需要明确目标、跨部门协作、变革管理和持续学习社区建设。
这项由东京科学技术大学等机构联合发布的研究提出了UMoE架构,通过重新设计注意力机制,实现了注意力层和前馈网络层的专家参数共享。该方法在多个数据集上显著优于现有的MoE方法,同时保持了较低的计算开销,为大语言模型的高效扩展提供了新思路。
美国垃圾收集行业2024年创收690亿美元,近18万辆垃圾车每周运营六至七天,每日停靠超千次。设备故障成为行业最大隐性成本,每辆车年均故障费用超5000美元。AI技术通过实时监控传感器数据,能提前数周预测故障,优化零部件库存管理,减少重复维修。车队报告显示,预测性维护每辆车年节省高达2500美元,显著提升运营效率和服务可靠性。
小米团队开发的MiMo-7B模型证明了AI领域"小而精"路线的可行性。这个仅有70亿参数的模型通过创新的预训练数据处理、三阶段训练策略和强化学习优化,在数学推理和编程任务上超越了320亿参数的大模型,甚至在某些指标上击败OpenAI o1-mini。研究团队还开发了高效的训练基础设施,将训练速度提升2.29倍。该成果已完全开源,为AI民主化发展提供了新思路。