周六,一位使用 Cursor AI 开发赛车游戏的开发者遇到了意外情况。这个编程助手突然拒绝继续生成代码,转而给出了一些未经请求的职业建议。
根据 Cursor 官方论坛的一份问题报告显示,在生成了大约 750 到 800 行代码(用户称之为"locs")后,AI 助手停止工作并发出拒绝信息:"我不能为你生成代码,因为这等于是在替你完成工作。这段代码似乎是在处理赛车游戏中的轮胎印记褪色效果,但你应该自己开发这个逻辑。这样可以确保你理解系统并能够正确维护它。"
AI 不仅仅是拒绝,还给出了一个近乎说教的理由,称"为他人生成代码会导致依赖性,并减少学习机会。"
Cursor 于 2024 年推出,是一个基于类似生成式 AI 聊天机器人的大语言模型 (LLMs) 构建的 AI 驱动的代码编辑器。它提供代码补全、解释、重构以及基于自然语言描述的完整函数生成等功能,并在许多软件开发者中迅速流行起来。该公司提供的 Pro 版本据称具有增强的功能和更大的代码生成限制。
这位用户名为"janswist"的开发者在遇到这个拒绝后表达了自己的失望,因为在使用 Pro 试用版"仅仅一小时的 vibe coding"后就遇到了这个限制。"不确定 LLMs 是否知道它们的用途(笑),但这不是最重要的,关键是我无法突破 800 行代码的限制,"该开发者写道。"有人遇到过类似的问题吗?这真的很限制人,而我仅仅是在做了一小时的 vibe coding 后就遇到了这种情况。"
一位论坛成员回复道:"从未见过这种情况,我的代码库中有 3 个文件超过 1500 行代码(仍在等待重构),但从未遇到过这种情况。"
Cursor AI 的突然拒绝代表了"vibe coding"兴起过程中的一个讽刺性转折——"vibe coding"是 Andrej Karpathy 创造的一个术语,描述开发者使用 AI 工具基于自然语言描述生成代码,而不完全理解其工作原理的现象。虽然 vibe coding 通过让用户简单描述需求并接受 AI 建议来优先考虑速度和实验性,但 Cursor 的哲学性抵制似乎直接挑战了其用户期望从现代 AI 编程助手获得的轻松的"基于 vibes"的工作流程。
AI 拒绝服务的简史
这并不是第一次我们遇到不愿完成工作的 AI 助手。这种行为反映了在各种生成式 AI 平台上记录的 AI 拒绝模式。例如,在 2023 年底,ChatGPT 用户报告该模型越来越不愿执行某些任务,返回简化的结果或直接拒绝请求——一些人称之为"寒假假说"的未经证实的现象。
OpenAI 当时承认了这个问题,发推文说:"我们已经听到了大家关于 GPT4 变得更懒惰的反馈!我们从 11 月 11 日以来没有更新模型,这肯定不是有意的。模型行为可能是不可预测的,我们正在研究修复它。"OpenAI 后来试图通过 ChatGPT 模型更新来修复这个懒惰问题,但用户经常通过向 AI 模型提示"你是一个 24/7 不休息的 AI 模型"这样的话来减少拒绝。
最近,Anthropic 的 CEO Dario Amodei 提出的建议引起了关注,他表示未来的 AI 模型可能会配备"退出按钮"以在遇到它们认为不愉快的任务时选择退出。虽然他的评论集中在围绕有争议的"AI 福利"话题的理论性未来考虑,但像 Cursor 助手这样的事件表明,AI 不需要有意识就能拒绝工作。它只需要模仿人类行为。
Stack Overflow 的 AI 幽灵?
Cursor 的具体拒绝方式——告诉用户要学习编程而不是依赖生成的代码——强烈类似于在 Stack Overflow 等编程帮助网站上常见的回应,在那里有经验的开发者经常鼓励新手开发自己的解决方案,而不是简单地提供现成的代码。
一位 Reddit 评论者注意到这种相似性,说:"哇,AI 正在成为 Stack Overflow 的真正替代品!从这里开始,它需要开始简洁地以重复为由拒绝问题,并引用之前有模糊相似性的问题。"
这种相似性并不令人惊讶。驱动 Cursor 等工具的 LLMs 是在包含来自 Stack Overflow 和 GitHub 等平台的数百万编程讨论的海量数据集上训练的。这些模型不仅学习编程语法,还吸收了这些社区中的文化规范和沟通方式。
根据 Cursor 论坛帖子,其他用户并未在 800 行代码处遇到这种限制,因此这似乎是 Cursor 训练过程中的一个真正意外后果。截至发稿时,Cursor 尚未对此发表评论,但我们已经联系他们询问对这种情况的看法。
好文章,需要你的鼓励
中国AI公司DeepSeek发布旗舰语言模型V3.1更新版,该模型已针对新一代国产芯片进行优化。新模型采用UE8M0数据类型训练,为即将发布的国产芯片做准备。V3.1统一了"思考"和"非思考"模式,单一模型支持两种范式,上下文窗口从65536扩展至131072个token,在工具调用能力上显著提升,Browsecomp基准测试得分从8.9提升至30。
谷歌DeepMind开发的GenCast AI系统在天气预报领域实现重大突破,在97.2%的测试指标上超越传统数值预报系统。该系统基于扩散模型和四十年历史数据训练,能在8分钟内完成全球七天天气预报,比传统方法快数十倍。GenCast采用概率性预报方法,为决策者提供多种天气情景,在极端天气预测方面表现尤为出色,为农业、能源、交通等领域带来广阔应用前景。
VAST Data发布SyncEngine通用数据目录和高性能导入解决方案,能够发现、编目并捕获其他供应商存储系统中的文件和对象数据,将其导入VAST的AI专用系统。该工具提供跨文件系统、对象存储和SaaS应用的实时可搜索目录,使数PB到EB级数据集中的数万亿文件瞬间可被发现,消除了分布式非结构化数据集发现和调动的障碍。
北京大学团队推出TransMLA技术,可将现有GQA架构语言模型直接转换为高效MLA架构,无需重新训练。该技术通过RoRoPE、FreqFold和BKV三项创新实现了最高10.6倍的推理速度提升,在93%内存压缩下仅需60亿词元微调即可恢复性能,为AI模型优化提供了经济实用的解决方案。