随着大语言模型训练对海量数据的需求不断攀升,AI公司正变得越来越"数据饥渴"。为满足这一需求,许多AI初创公司无视互联网长期以来的通行规则——例如遵守robots.txt文件所标注的爬取禁区——转而对各类网站进行大规模数据抓取。这迫使众多网站不得不收紧数据访问权限,或与AI公司签署数据授权协议。健身与社交跑步平台Strava也朝着这一方向迈出了关键一步:通过限制网站访问权限、向开发者收取数据接口费用来保护自身数据资产。
在防止数据爬取方面,Strava正在加强网站安全机制,要求用户必须登录后才能查看特定内容。此前,访客无需登录即可浏览公开个人主页、健身俱乐部列表等信息。
在API开放政策上,开发者过去可以通过免费的分级访问计划搭建基于Strava的应用——先申请基础权限,随着应用规模扩大再申请更高级别的访问。如今,Strava对所有开发者统一收取每月11.99美元的固定费用,不过该公司表示具体价格可能因地区而有所不同。
Strava表示,其开发者社区规模已从去年的18.5万人增长至今年的24.1万人,公司将继续为开发者提供支持。与此同时,Strava还计划接入模型上下文协议(MCP)——这一新兴标准允许AI助手和应用以结构化方式访问外部数据,从而使Strava能够更精准地管控数据共享的内容与方式。
此外,Strava计划关闭部分API端点(即允许第三方应用提取特定数据的独立接口,例如俱乐部详情信息),以保护用户隐私。Strava早在2024年就已收紧API使用规范,明令禁止将其用于AI训练,并限制第三方应用展示其他用户的数据。这些变更当时曾引发开发者强烈反弹,不少人表示其应用将受到严重影响。
尽管部分开发者可能接受订阅付费模式,但部分API端点的关闭仍可能对依赖这些接口的应用造成冲击。对此,Strava为开发者提供了90天的过渡缓冲期。
Strava首席执行官迈克尔·马丁在接受TechCrunch采访时表示,不受约束的AI数据爬取可能会成为扼杀公开互联网的"最后一击"。
"AI公司为了满足对训练数据的无尽渴求,正在不择手段地抓取公开网站内容,这已经全面拖累了网站性能,"马丁说,"过去几个月里,我们已多次遭遇性能下降,甚至服务中断的情况。除了爬取公开网站,他们还试图通过我们的API获取数据,无视API使用条款。"
他透露,Strava已拒绝多家头部AI实验室提出的数据授权合作请求。其中,他点名批评了AI搜索初创公司Perplexity——尽管已被明确拒绝,该公司仍通过聚合服务中转其爬虫流量,以掩盖真实来源。这与Perplexity此前在其他平台被指控的类似行为相吻合。
马丁还特别提到,一批由AI辅助快速生成的"氛围编码"应用质量参差不齐,其API调用结构往往低效,对Strava服务器造成了不成比例的负载压力。类似的问题并不鲜见:去年Meta封禁WhatsApp第三方聊天机器人时,也援引了相似的系统负担理由。
此次行动的时间节点或许并非巧合。Strava今年早些时候已秘密提交IPO申请,此番强化数据保护措施,或意在向潜在投资者传递"数据管理规范"的积极信号。面对外界将其与Reddit 2024年API收费风波相提并论,马丁也主动回应了这一对比。他指出,Reddit按API调用次数定价,导致许多应用开发者根本负担不起;而Strava采用固定月费的方式,目的正是维护整个开发者生态的健康运转。
"我们希望用户觉得自己真正拥有并掌控自己的数据,对我们的管理和保护方式感到放心。同时,我们也希望开发者能够持续繁荣成长,"马丁说。
Q&A
Q1:Strava为什么要开始向开发者收费并限制API访问?
A:Strava面临AI公司和低质量应用的大规模数据爬取,导致平台性能严重下降,甚至出现服务中断。为保护用户数据和平台稳定性,Strava决定对所有开发者收取每月11.99美元的固定费用,并关闭部分API端点。同时,Strava也在筹备IPO,此举也有向投资者展示数据管理规范的考量。
Q2:Strava的MCP支持计划会带来哪些变化?
A:Strava计划接入模型上下文协议(MCP),这是一种允许AI助手和应用以结构化方式访问外部数据的新兴标准。接入MCP后,Strava可以更精准地控制哪些数据被共享、以何种方式共享,相较于过去被动应对爬取行为,平台将拥有更主动的数据管控能力。
Q3:Strava的API新政和Reddit的API收费有什么区别?
A:Reddit在2024年按API调用次数收费,导致费用高昂,许多第三方应用开发者直接被挡在门外。Strava则选择每月11.99美元的统一固定费用,希望在保护数据的同时,维持开发者生态的活跃度,避免重蹈Reddit引发大规模开发者反弹的覆辙。
好文章,需要你的鼓励
今天讲的出海案例是明阳电气,这家输配电设备公司在马来西亚投产首个海外生产基地,并以 250 万林吉特子公司承接本地制造。
研究揭示AI搜索代理"屏蔽旧观测"策略的效果取决于检索质量与模型能力的匹配程度,存在三种截然不同的效果区间。
数学界发布《莱顿宣言》,由16位研究人员历时8个月起草,已获国际数学联盟背书。宣言指出,AI正威胁数学研究的核心价值:AI生成的错误证明难以识别、论文引用不规范、版权争议频发、科技公司主导研究议题,以及企业借新闻稿抢占话语权等问题日益严峻。宣言呼吁数学家透明披露AI使用情况,建议监管机构保护作者权利并规范AI产业,同时警告各方不要轻信科技公司对AI能力的夸大宣传。
多所高校与研究机构联合构建机器人语义接地测试平台RSB,发现主流VLA模型普遍存在"能抓但抓错"的致命缺陷,语义理解与动作生成之间存在严重断层。