我们都曾感觉到正在阅读的内容可能是由大语言模型生成的——但要准确判断却非常困难。去年有几个月,大家都认为"delve"或"underscore"这类特定词汇能暴露AI模型的身份,但证据并不充分,随着模型变得更加复杂,这些标志性词汇也变得更难追踪。
但事实证明,维基百科的编辑们在标记AI生成文本方面已经变得相当擅长——该团队公开发布的"AI写作迹象"指南是我发现的最佳资源,能帮助确认你的怀疑是否有根据。(感谢诗人Jameson Fitzpatrick在X平台上分享了这份文档。)
自2023年以来,维基百科编辑一直致力于处理AI提交的内容,他们称这个项目为"AI清理项目"。由于每天有数百万次编辑提交,有大量材料可供分析,以典型的维基百科编辑风格,该团队制作了一份既详细又有充分证据支撑的实地指南。
首先,该指南证实了我们已知的事实:自动化工具基本无用。相反,指南重点关注在维基百科上罕见但在整个互联网上常见的习惯用法和措辞(因此在模型的训练数据中很常见)。根据指南,AI提交的内容会花大量时间强调某个主题为什么重要,通常使用"关键时刻"或"更广泛的运动"等通用术语。AI模型还会花很多时间详细描述次要媒体报道,以使主题显得值得关注——这是你在个人简历中会期待看到的内容,但不是来自独立来源的。
指南标出了一个特别有趣的怪癖,即在尾部条款中含糊地声称重要性。模型会说某个事件或细节"强调了某事的重要性",或"反映了某个一般想法的持续相关性"。(语法专家会知道这是"现在分词"。)这有点难以准确定义,但一旦你能识别它,你会发现它无处不在。
还有一种倾向于使用模糊的营销语言,这在互联网上极其常见。风景总是优美的,景色总是令人惊叹的,一切都是干净现代的。正如编辑们所说,"这听起来更像电视广告的文字稿。"
这份指南值得完整阅读,但我看完后印象深刻。在此之前,我会说大语言模型的写作风格发展太快,难以确定。但这里标记的习惯深深嵌入在AI模型的训练和部署方式中。它们可以被伪装,但很难完全消除。如果公众在识别AI文本方面变得更加精明,可能会产生各种有趣的后果。
Q&A
Q1:维基百科是如何处理AI生成内容的?
A:自2023年以来,维基百科编辑启动了"AI清理项目",专门处理AI提交的内容。由于每天有数百万次编辑提交,编辑们积累了大量经验,并制作了详细的"AI写作迹象"指南来帮助识别AI生成的文本。
Q2:AI写作有哪些典型特征?
A:AI写作通常会过度强调主题重要性,使用"关键时切"等通用术语;详细描述次要媒体报道以显得重要;频繁使用现在分词结构如"强调重要性";倾向于使用模糊的营销语言,如"优美的风景"、"令人惊叹的景色"等。
Q3:自动化工具能有效检测AI写作吗?
A:根据维基百科指南,自动化工具基本无用。更有效的方法是识别AI模型的写作习惯和措辞特点,这些特征源于模型的训练数据,虽然可以被伪装但很难完全消除。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。