AI实验室现在正在尝试一种新策略:不再与企业签署昂贵的数据合同,而是利用这些企业的前高级员工获取行业知识。Mercor CEO Brendan Foody在2025年TechCrunch Disrupt大会上表示,他们的平台正成为连接投资银行、咨询公司和律师事务所前员工与AI实验室的主要渠道,这些实验室希望实现这些行业的自动化。
Foody在台上解释说:"有观点认为高盛并不喜欢能够自动化其价值链的模型。这确实会改变竞争格局,这也是实验室需要我们的部分原因。他们的客户不愿意提供数据来自动化其价值链的大部分内容,因此他们需要雇佣曾在这些公司工作、了解这些工作流程并愿意训练模型来自动化它们的承包商。"
22岁的Mercor联合创始人Foody表示,他的初创公司向行业专家支付每小时高达200美元的费用,让他们填写表格和撰写报告用于AI训练。该公司现在拥有数万名承包商,据称每天向他们支付超过150万美元。尽管如此,Foody表示该初创公司仍然盈利,因为AI实验室愿意为这些有价值的数据支付更多费用。
自成立不到三年以来,Mercor的年度经常性收入已增长至约5亿美元,最近以100亿美元的估值完成融资。该公司的客户包括OpenAI、Anthropic和Meta。
各行业的现有企业有充分理由抵制Mercor的崛起,因为他们的行业知识可能通过在该初创公司平台上的前员工泄露,最终可能被用来自动化他们的工作。Foody承认他可能暴露了市场中的低效率,但表示他不会称其为"漏洞"。
事实上,Foody表示一些公司已经在拥抱这种"工作的新未来"。他提出Mercor的平台可能创造一种新型零工经济,就像十多年前Uber所做的那样。
虽然Mercor试图从各个行业提取知识,但Foody表示他的初创公司努力防止承包商进行企业间谍活动——即窃取专有信息、商业秘密或知识产权并将其出售给另一家企业的非法行为。
但这说起来容易做起来难。Mercor的大部分员工都是律师事务所、投资银行和其他对数据非常保密的行业的前员工。Foody表示,Mercor的一些承包商仍在其日常工作中工作,只是在业余时间提交数据,他声称承包商被指示不要上传来自其前工作场所的文档。尽管如此,考虑到其初创公司的规模,他承认"可能会发生一些事情"。
Foody认为员工头脑中的知识属于员工,而不是他们的公司——这比许多企业所持的观点更为宽松。此外,在Mercor的一些职位发布中,该初创公司在要求员工知识和公司数据之间踩线。
例如,Mercor目前正在寻找能够"授权访问大量生产代码库"用于AI评估或潜在AI模型训练的初创公司CTO或联合创始人。在一封电子邮件中,Mercor告诉TechCrunch有几位初创公司CTO接受了这一提议,但拒绝透露其合同的详细信息。
Mercor是最早招募美国高技能知识工作者并支付大笔费用来训练AI模型的数据初创公司之一。在AI繁荣初期,像Scale AI这样的数据供应商雇佣第三世界国家的承包商来完成相当简单的标记工作。现在,Mercor的大多数竞争对手——包括Surge和Scale AI——都已经意识到AI实验室需要专家来改进其AI模型。许多数据供应商也开始训练"环境"以提高智能体完成现实世界任务的能力。
Mercor明显受益于Scale AI的不幸:在Meta对该初创公司进行大笔投资并聘请其CEO后,许多AI实验室停止与Scale AI合作。在过去一年中,Mercor的估值增长了五倍,但它仍然比Surge和Scale AI小,后两者的估值都超过200亿美元。
目前,Mercor的大部分收入来自少数几个AI实验室,但Foody表示该初创公司计划未来与其他行业合作。他相信法律、金融和医学领域的公司将希望获得帮助,利用其数据来训练智能体——这是Mercor的专长。
Foody表示:"随着时间的推移,ChatGPT将比最好的咨询公司、最好的投资银行和最好的律师事务所都要好。这将从根本上改变经济,这将是一个广泛的积极力量,有助于为每个人创造丰富。"
Q&A
Q1:Mercor是什么?它主要做什么业务?
A:Mercor是一个连接AI实验室与行业专家的平台。它招募投资银行、咨询公司、律师事务所等企业的前员工,让他们利用自己的行业知识为AI模型训练提供数据,报酬最高可达每小时200美元。
Q2:为什么AI实验室需要通过Mercor获取数据?
A:因为许多企业不愿意直接与AI实验室分享数据来自动化自己的价值链,这会改变竞争格局。所以AI实验室需要雇佣了解这些工作流程的前员工来获取训练数据。
Q3:Mercor如何防止企业间谍活动?
A:Mercor指示承包商不要上传来自前工作场所的文档,并试图防止承包商窃取专有信息。但Foody承认由于公司规模庞大,仍可能发生一些问题。他认为员工头脑中的知识属于员工本人。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。