斯坦福大学计算机科学家James Zou正在探索AI如何加速科学研究和同行评议。他的研究发现:AI擅长发现研究中的漏洞,但判断性决策仍需人类参与。
James Zou是斯坦福大学的计算机科学家,一直在探索大语言模型如何辅助科学同行评议,以及AI智能体如何更广泛地加速研究进程。这在科学界是一个颇具争议的话题,随着AI能力的不断增长,这个问题变得尤为重要。
在最近的一项大规模随机实验中,Zou和合作者为大约20,000篇评议中的人类评议员提供AI辅助,以评估AI对评议质量的影响。另外,Zou还帮助组织了"科学智能体"会议,这是一个实验性的"沙盒",用于研究AI作为科学作者和评议员的角色。
James Zou表示:"AI在客观、可验证的不一致性和技术问题上表现最强,但在关于研究新颖性或重要性的主观判断上较弱。"
总体而言,他认为AI在发现研究、数据和分析中的错误或漏洞方面很有价值,但也指出了它在真正需要人类判断的任务中的局限性,比如评估研究的相对重要性。
我们与Zou讨论了这些努力对AI在科学出版领域未来发展的启示。
AI如何为同行评议过程做出贡献
Zou表示,人们对使用AI,特别是语言模型来支持研究和同行评议、加速科学进程有着巨大兴趣。一个关键优势是AI可以充当快速、随时可用的批评者,类似于预提交评议过程——在科学家正式提交论文发表之前。AI在评估草稿的漏洞和局限性方面表现相当不错,研究人员可以提前解决这些问题。这可以提高首次提交发表的草稿质量,减少后续的反复修改。在评议员方面,压力是真实存在的:随着提交量的增长,人类评议员负担过重,这可能导致评议质量下降和作者的挫败感。
AI作为同行评议员的优势和劣势在哪里
Zou认为现在还处于早期阶段,情况尚不明朗。到目前为止,除了发现漏洞和局限性外,AI在评议的客观、可验证方面表现相当不错。例如:"表一中的这个数字与文本中报告的数字不符",或"这个方程式与另一个方程式不匹配"。他总结说,AI在客观、可检查的不一致性和技术问题上表现最强,但在关于研究新颖性或重要性的主观判断上较弱。实际上,它的一些主观评估甚至可能带有阿谀奉承的色彩。
科学家与AI之间适当的工作关系是什么
与其他领域一样,AI应该支持和告知——而不是完全替代——人类决策。人类或人类团队必须做出最终的编辑决定,科学家必须为自己的工作承担责任。AI可以对早期草稿提供评论,指出遗漏,并在写作和研究方面提出改进建议——但科学家必须对整合和综合来自AI和人类评议员的反馈负责。也许随着AI的改进,这种情况可能会发生变化,但目前他认为这是合理的做法。
在Agents4Science会议上,他们公开了AI的提交和评议内容,为科学家社区创建了一个评议语料库。他们甚至邀请了诺贝尔经济学奖获得者独立评估一篇AI主导的论文。他在对该论文的评议中写道:"这在技术上实际上做得非常好。"
科学家在AI参与工作的透明度方面有什么责任
科学家必须坦诚说明AI在研究本身以及论文写作和评议中是如何、在哪里提供帮助的。他们应该在论文中准确说明AI的参与方式和使用的工具。这归结为问责制和明确的责任链,确保最终决定仍然由人类做出。
科学界对这项工作有什么反应
科学界对AI如何改进同行评议表现出巨大的兴趣和好奇心。他们在国际学习表征会议的实验表明,AI反馈提高了评议质量和评议员参与度。Agents4Science会议也收到了来自28个不同国家的300多篇AI主导的研究提交。基于此,许多会议和期刊现在正在探索使用大语言模型来辅助评议过程。
目前如何在工作中使用AI
Zou在日常研究任务中使用AI。例如,AI帮助他们编写代码。他还将AI用作预提交评议过程——在正式提交论文之前识别漏洞和局限性,并建议改进,这些都可以在人类同行评议开始前很久就得到解决。
这项研究将引向何处
他们将举办更多AI智能体会议,目标是建立证据和规范,以塑造AI在科学中的未来应用。该领域需要更仔细的测试。随着AI成为日常科学合作者——作家、编程员、批评者——科学界将不得不继续完善哪些角色属于机器,哪些属于人类,以及如何使这种关系既有用又值得信赖。AI在科学中的作用只会不断增长,科学界应该共同努力塑造未来的合作。
Q&A
Q1:AI在科学同行评议中有什么具体优势?
A:AI可以充当快速、随时可用的批评者,在论文正式提交前进行预评议。它擅长发现研究中的漏洞和局限性,识别客观、可验证的不一致性和技术问题,比如数据不匹配或方程式错误,帮助研究人员提前解决问题,提高草稿质量。
Q2:AI作为评议员有什么局限性?
A:AI在主观判断方面较弱,特别是在评估研究的新颖性或重要性时表现不佳。它的一些主观评估甚至可能带有阿谀奉承的色彩。因此,AI更适合处理客观、可检查的技术问题,而非需要专业判断的评价任务。
Q3:科学家使用AI辅助研究需要注意什么?
A:科学家必须保持透明度,坦诚说明AI在研究和论文写作中的具体参与方式和使用工具。最终决定必须由人类做出,科学家要为整合AI和人类评议员反馈负责,确保问责制和明确的责任链。
好文章,需要你的鼓励
Anthropic于6月30日发布Claude Sonnet 5,相较前代Claude Sonnet 4.6在编程、推理、工具使用及知识工作方面均有显著提升。该模型可自主制定计划、使用浏览器和终端等工具,达到数月前需更大更贵模型才能实现的水平。安全评估显示其不良行为率更低。Sonnet 5默认开启自适应思维,采用更新的分词器,性能接近Opus 4.8但价格更低,现已面向所有订阅计划开放。
复旦大学联合多机构提出A2World框架,通过210万条真实机器人轨迹进行动作条件化预训练,将学到的物理动力学先验同时迁移到仿真模拟和策略控制两个方向,在LIBERO和真实机器人任务上均取得当前最优表现。
人工智能基础设施的快速扩张不仅带来总用电量激增,更在改变电网的运行特性。AI训练任务高度同步、计算密集,推理任务则分散且难以预测,两者均可在极短时间内造成电力需求骤变。数据中心的地理集中分布进一步加剧局部电网压力。现有监管框架多基于稳定工业负荷设计,难以适应这类新型需求。专家指出,电网规划需从关注总能耗转向关注需求波动性与同步效应。
同济大学研发的FLISP系统,让无人车与无人机在水电隧道中无需建图、仅靠激光雷达实时协作导航,规划延迟仅7毫秒,成功率100%。