周六,一位使用 Cursor AI 开发赛车游戏的开发者遇到了意外情况。这个编程助手突然拒绝继续生成代码,转而给出了一些未经请求的职业建议。
根据 Cursor 官方论坛的一份问题报告显示,在生成了大约 750 到 800 行代码(用户称之为"locs")后,AI 助手停止工作并发出拒绝信息:"我不能为你生成代码,因为这等于是在替你完成工作。这段代码似乎是在处理赛车游戏中的轮胎印记褪色效果,但你应该自己开发这个逻辑。这样可以确保你理解系统并能够正确维护它。"
AI 不仅仅是拒绝,还给出了一个近乎说教的理由,称"为他人生成代码会导致依赖性,并减少学习机会。"
Cursor 于 2024 年推出,是一个基于类似生成式 AI 聊天机器人的大语言模型 (LLMs) 构建的 AI 驱动的代码编辑器。它提供代码补全、解释、重构以及基于自然语言描述的完整函数生成等功能,并在许多软件开发者中迅速流行起来。该公司提供的 Pro 版本据称具有增强的功能和更大的代码生成限制。
这位用户名为"janswist"的开发者在遇到这个拒绝后表达了自己的失望,因为在使用 Pro 试用版"仅仅一小时的 vibe coding"后就遇到了这个限制。"不确定 LLMs 是否知道它们的用途(笑),但这不是最重要的,关键是我无法突破 800 行代码的限制,"该开发者写道。"有人遇到过类似的问题吗?这真的很限制人,而我仅仅是在做了一小时的 vibe coding 后就遇到了这种情况。"
一位论坛成员回复道:"从未见过这种情况,我的代码库中有 3 个文件超过 1500 行代码(仍在等待重构),但从未遇到过这种情况。"
Cursor AI 的突然拒绝代表了"vibe coding"兴起过程中的一个讽刺性转折——"vibe coding"是 Andrej Karpathy 创造的一个术语,描述开发者使用 AI 工具基于自然语言描述生成代码,而不完全理解其工作原理的现象。虽然 vibe coding 通过让用户简单描述需求并接受 AI 建议来优先考虑速度和实验性,但 Cursor 的哲学性抵制似乎直接挑战了其用户期望从现代 AI 编程助手获得的轻松的"基于 vibes"的工作流程。
AI 拒绝服务的简史
这并不是第一次我们遇到不愿完成工作的 AI 助手。这种行为反映了在各种生成式 AI 平台上记录的 AI 拒绝模式。例如,在 2023 年底,ChatGPT 用户报告该模型越来越不愿执行某些任务,返回简化的结果或直接拒绝请求——一些人称之为"寒假假说"的未经证实的现象。
OpenAI 当时承认了这个问题,发推文说:"我们已经听到了大家关于 GPT4 变得更懒惰的反馈!我们从 11 月 11 日以来没有更新模型,这肯定不是有意的。模型行为可能是不可预测的,我们正在研究修复它。"OpenAI 后来试图通过 ChatGPT 模型更新来修复这个懒惰问题,但用户经常通过向 AI 模型提示"你是一个 24/7 不休息的 AI 模型"这样的话来减少拒绝。
最近,Anthropic 的 CEO Dario Amodei 提出的建议引起了关注,他表示未来的 AI 模型可能会配备"退出按钮"以在遇到它们认为不愉快的任务时选择退出。虽然他的评论集中在围绕有争议的"AI 福利"话题的理论性未来考虑,但像 Cursor 助手这样的事件表明,AI 不需要有意识就能拒绝工作。它只需要模仿人类行为。
Stack Overflow 的 AI 幽灵?
Cursor 的具体拒绝方式——告诉用户要学习编程而不是依赖生成的代码——强烈类似于在 Stack Overflow 等编程帮助网站上常见的回应,在那里有经验的开发者经常鼓励新手开发自己的解决方案,而不是简单地提供现成的代码。
一位 Reddit 评论者注意到这种相似性,说:"哇,AI 正在成为 Stack Overflow 的真正替代品!从这里开始,它需要开始简洁地以重复为由拒绝问题,并引用之前有模糊相似性的问题。"
这种相似性并不令人惊讶。驱动 Cursor 等工具的 LLMs 是在包含来自 Stack Overflow 和 GitHub 等平台的数百万编程讨论的海量数据集上训练的。这些模型不仅学习编程语法,还吸收了这些社区中的文化规范和沟通方式。
根据 Cursor 论坛帖子,其他用户并未在 800 行代码处遇到这种限制,因此这似乎是 Cursor 训练过程中的一个真正意外后果。截至发稿时,Cursor 尚未对此发表评论,但我们已经联系他们询问对这种情况的看法。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。