记者兼作者史蒂文·罗森鲍姆(Steven Rosenbaum)有着比大多数人更充分的理由不信任AI。
他的新书《真相的未来:AI如何重塑现实》,围绕"在快速发展、以利润为驱动的AI压力下,真相正在被扭曲、模糊与合成"这一核心展开。然而,《纽约时报》本周的一项调查发现,罗森鲍姆在研究这本书时使用了AI工具,并由此引入了他本人也承认的"少量归属错误或合成引语"。
问题引语包括:科技记者卡拉·斯威舍(Kara Swisher)告诉《纽约时报》她"从未说过"的一句话,以及东北大学教授丽莎·费尔德曼·巴雷特(Lisa Feldman Barrett)表示"并未出现在我的书中,而且内容也是错误的"相关引用。目前,罗森鲍姆正与编辑合作,对全书进行他所称的"引用审计",相关更正将在未来版本中体现。
在接受采访时,罗森鲍姆表示自己"吸取了教训",今后将"更加警惕",对AI的输出结果"更谨慎地信任"。
然而,他也无法割舍这些工具。令人惊讶的是,他并不打算回到撰写过去几本书时不依赖AI的研究方式。
"让我在AI'自我修正'期间放弃它几年,回到使用微软Word的时代……这不是我的风格,"他说,"AI太神奇了。它能将各种想法串联起来,为你打开思路,引导你思考那些凭自己很难想到的问题。"
AI的"神奇"还体现在另一层面:就像托尔金笔下的至尊魔戒,AI让许多使用它的人相信自己能驾驭其力量。但他们真的能吗?
悄然溜走的错误
罗森鲍姆告诉我,他在写作过程中使用AI工具的目的是"发掘灵感、查找文章、梳理主题、锁定值得深入研究的人物或论文"。他在此类研究辅助与书中"实际的采访报道、叙事结构、论据及结论"之间划定了清晰界限,并强调后者"完全出自我自己……AI从未参与书稿的写作。"
《真相的未来》除了包含罗森鲍姆自述亲自完成的采访记录章节外,还有若干以研究为主的章节。他表示,这些章节的写作方式是"收集事实,再将其编织成叙事"。他大量使用了OpenAI的ChatGPT和Anthropic的Claude等工具收集信息,并在笔记中对AI提供的内容注明"来源于AI"的标记。
"它以各种奇特、巧妙、不寻常的方式激发创意……然后又以令人极为难堪的方式背叛你。"——史蒂文·罗森鲍姆
这些标注了AI来源的笔记,随后被交给出版商提供的一名事实核查员和两名文字编辑进行审核。在书中285条外部引用中,《纽约时报》已标记出6条存在问题的引用,其中包括3条所谓"合成引语"——这些引语似乎没有任何可查证的来源。(随着审查工作的推进,还可能发现更多问题。值得一提的是,大多数作者在写书时能够做到零虚构引用。)
"我认为我们当时的核查工作做得相当扎实,但并非百分之百无误,"罗森鲍姆说,"我们在认真做,尽了最大努力,反复查看,看起来没问题,再次确认,但最终还是出了差错。"
这一重大失误揭示了传统事实核查流程在应对AI辅助研究时可能存在的严重不足。过去,事实核查人员可以合理地假设:作者引用文献中的话语,是直接原文抄录的,只需确认是否准确即可——这类引用易于核实,本身可疑度较低。但一旦AI工具介入整个流程,这一假设便不再成立,必须额外增加一层怀疑:这些引语是否被正确转录,乃至是否真实存在。
在作者群体中,AI工具的普及恰好发生在一个出版机构和新闻编辑室因财务压力而大幅削减文字编辑与事实核查岗位的时代。我们已经看到,即便有事实核查环节,AI生成的错误依然可能进入出版书籍。对于大量出版前从未经过任何事实核查的书籍而言,使用这些工具带来的风险只会更高。
罗森鲍姆本人也认同:"出版商需要建立专门针对AI时代研究的全新核查流程,这可能包括对引用进行强制性溯源、更完善的来源追踪机制、更清晰的AI辅助研究规范,以及——颇具讽刺意味的是——利用AI工具本身对引用内容进行核对。"
"我并非有意捏造任何内容,"罗森鲍姆继续说,"所发生的事,是每天与这些系统打交道的记者、学生、研究人员、律师和作者越来越常遭遇的:AI生成的信息看起来权威可信,其中一些在被发现之前,已经流传得太远了。"
对着机器破口大骂
AI生成的重大错误已在多个领域屡见不鲜,令人忧虑。去年,《芝加哥太阳时报》刊登了一份充斥着AI虚构书目的暑期阅读推荐广告。《纽约时报》近期也不得不发布重要更正,因为刊载的一段归属于保守党领袖皮埃尔·波利耶夫(Pierre Poilievre)的引语,实际上是"AI对其观点的概括总结"。《连线》和《商业内幕》等媒体先后撤下了多篇署名"Margaux Blanchard"、疑似由AI生成的文章。学术会议饱受充斥幻觉引用的论文困扰,预印本平台arXiv近期也实施了零容忍禁令,试图遏制这一问题的蔓延。
Ars Technica自身也未能幸免。今年早些时候,一名前记者使用了一款AI工具来提取某信息来源博客文章中的原文引语,但该工具实际上生成的是捏造版本,网站随后撤回了相关报道。
一位写了整本书来警示AI如何扭曲现实的作者,自己却将AI生成的虚假信息写进了书里——这种讽刺意味并未逃过罗森鲍姆的眼睛。"我很感谢这本书受到关注,但这绝不是我希望引发关注的方式,"他说。
尽管这种讽刺令人"不舒服",他却很快将其解读为"同样具有启示意义":一位本就对AI持批判态度、长期关注核查问题的作者,依然会在这些系统面前栽跟头,这恰恰说明这些系统的渗透力与说服力已经有多强。他认为,自己亲历的这次AI问题,"比任何抽象论证都更生动地说明了问题所在"。
或许如此。但如果接受这种逻辑,那么世界上所有本可避免的明显失误,都可以因为"很有教育意义"而被合理化——这显然说不通;有时候,"疏忽"就只是疏忽。
当被直接追问,他如何会重蹈自己书中警示的AI相关陷阱时,罗森鲍姆的描述听起来像是一段与迷人骗子之间扭曲的关系。
"作为一名作者,AI常常是令人愉悦的写作伙伴,"他说,"我说'写作伙伴',并非随口一说。它以各种奇特、巧妙、不寻常的方式激发创意……然后又以令人极为难堪的方式背叛你。"
在整个对话过程中,罗森鲍姆频繁举例讲述那些AI的明显错误如何让他愤怒到字面意义上对着机器破口大骂。这可以追溯到2022年,他开始用AI工具尝试做"小型研究项目"。彼时,他发现AI给出的答案有大约80%"非常有用",其余20%则是凭空捏造、"完全不真实"。
尽管如此,他依然没有停止在生活和工作中使用这些工具。就在接受采访的那天,罗森鲍姆提到,他最近要求一款AI工具从一份幻灯片中提取他的"不做任何修改、逐字照录"的演讲备注,以供即将到来的演讲使用。他正准备打印提取内容时,却发现这个大语言模型实际上已经对他的文字进行了改写,尽管他给出的是"非常明确的指令"。
"我问它:'你改写了我的文字吗?'它说:'哦,我只是让语言更有力一些。'好吧,那真的是,去你的!"他说。
即便面对这类令人抓狂的错误,罗森鲍姆仍然认为AI工具的效率高到无法放弃。
"那份幻灯片有100页,"他说,"如果逐页手动复制粘贴文字,大概要花一个小时做这种机械重复的工作,ChatGPT大约四秒钟就完成了。"
对此,显而易见的反驳是:是的,它很快。但它也是错的。
骑上摩托车
当赌注只是个人演讲备注时,效率提升或许值得接受。但《真相的未来》这个案例表明,在涉及最终将被纳入出版书籍的研究内容时,AI的可靠性与表面上的速度之间的权衡,需要以截然不同的标准来衡量。
谈话继续深入时,我一再回到准确性与效率之间的这道权衡题,罗森鲍姆似乎也在某种程度上承认这是一个问题。即便他称AI的研究辅助"神奇"且"令人愉悦",他也将应对AI的幻觉和无视指令的过程描述为一种"阴险且令人疲惫"的煎熬。
"几乎每次使用它,都会让你感到……不安,"他谈及AI无视明确指令的惯常表现时说道。
"说实话,在这之前我从来没有跟任何技术'较过劲',"他在另一处说,"而我用科技产品用得可多了。"
"我从来没有遇到过一种技术,让我觉得它既令人着迷,又充满危险……"——史蒂文·罗森鲍姆
考虑到他新书中出现的问题,我问他,引入那些可能察觉不到的不准确信息的风险,真的值得为了感知到的收益而承担吗?
"我不吸毒,也不喝酒,但我想这大概就是一个瘾君子在多喝了一杯、心知肚明的时候自问的问题,"罗森鲍姆说,"我从来没有遇到过一种技术,让我觉得它既令人着迷,又充满危险。而我写这本书,正是为了提出这种警示——所以如果我最终成为了没有意识到边界在哪里的反面教材,那就这样吧。"
谈到AI的相对风险与收益时,罗森鲍姆提到自己骑自行车,但不会骑摩托车。"我知道摩托车能让我更快到达目的地,但我觉得它很危险,可能会要了我的命。这就是我不买摩托车的原因,"他说。
在这个比喻里,他明确将使用AI定位为相对安全的"自行车"选项。我回应说,AI所蕴含的超级效率与灾难性风险,让它感觉更像是那辆摩托车。罗森鲍姆说"这或许有道理",并感谢我"让这个比喻更锐利了"。
我随后问出了那个显而易见的问题:你会继续骑那辆摩托车吗?
"能让我再想想吗?"他说。
Q&A
Q1:罗森鲍姆的书《真相的未来》里为什么会出现AI生成的假引语?
A:罗森鲍姆在研究过程中大量使用了ChatGPT和Claude等AI工具来收集信息、梳理主题,这些工具生成的内容有时会伪造或错误归属引语。尽管他在笔记中标注了AI来源,并交由事实核查员和编辑审核,但仍有少量虚假引语未被发现,最终流入出版版本。
Q2:AI生成错误引语的问题在出版和媒体行业普遍吗?
A:这类问题已相当普遍。《芝加哥太阳时报》曾刊登充斥AI虚构书目的推荐名单;《纽约时报》因AI生成的摘要被当成真实引语而发出重要更正;《连线》和《商业内幕》撤下了疑似AI生成的署名文章;学术会议也频繁出现含有幻觉引用的论文。AI工具普及与出版核查资源缩减的叠加,正在加剧这一风险。
Q3:出版商应该如何应对AI辅助研究带来的引用错误风险?
A:罗森鲍姆认为,出版商需要建立专门针对AI时代的核查流程,具体措施包括:对引用内容进行强制性来源溯源、建立更完善的内容来源追踪机制、制定更清晰的AI辅助研究规范,以及引入能够将引用内容与原始资料进行比对的AI审核工具。
好文章,需要你的鼓励
FlytBase与Yarra Drones宣布合作,致力于帮助企业在澳大利亚部署合规、可扩展的自主无人机系统。合作将FlytBase的企业级无人机自主平台与Yarra Drones在无人机交通管理及法规合规方面的专业能力相结合。随着澳大利亚持续推进超视距(BVLOS)无人机运营及全国统一空域管理,双方希望为政府机构、运营商和制造商提供灵活且符合监管要求的解决方案。
OpenComputer是一个自动生成可验证桌面操作任务的框架,通过程序直接检查应用程序内部状态而非依赖截图判断,覆盖33款应用和1000道任务,揭示顶尖AI的真实操作能力短板。
本田推出基于N-ONE e打造的Super-ONE电动热掀背车,日本售价约21000美元,开放预订约一个月已突破7000台订单,超出预期。该车搭载29.6度电池,续航274公里,支持30分钟快充。配备Boost模式可将功率从63马力提升至93马力,并模拟传统燃油车驾驶感受。车身紧凑复古,标配9英寸Google车载系统及Bose音响。后续将在欧洲、英国、澳大利亚等市场销售。
VideoSeeker是中科大与小红书联合提出的实例级视频理解系统,通过视觉提示和主动工具调用,让AI能精准理解视频中的特定目标,8B模型超越GPT-4o和Gemini-2.5-Pro。