斯坦福大学计算机科学家James Zou正在探索AI如何加速科学研究和同行评议。他的研究发现:AI擅长发现研究中的漏洞,但判断性决策仍需人类参与。
James Zou是斯坦福大学的计算机科学家,一直在探索大语言模型如何辅助科学同行评议,以及AI智能体如何更广泛地加速研究进程。这在科学界是一个颇具争议的话题,随着AI能力的不断增长,这个问题变得尤为重要。
在最近的一项大规模随机实验中,Zou和合作者为大约20,000篇评议中的人类评议员提供AI辅助,以评估AI对评议质量的影响。另外,Zou还帮助组织了"科学智能体"会议,这是一个实验性的"沙盒",用于研究AI作为科学作者和评议员的角色。
James Zou表示:"AI在客观、可验证的不一致性和技术问题上表现最强,但在关于研究新颖性或重要性的主观判断上较弱。"
总体而言,他认为AI在发现研究、数据和分析中的错误或漏洞方面很有价值,但也指出了它在真正需要人类判断的任务中的局限性,比如评估研究的相对重要性。
我们与Zou讨论了这些努力对AI在科学出版领域未来发展的启示。
AI如何为同行评议过程做出贡献
Zou表示,人们对使用AI,特别是语言模型来支持研究和同行评议、加速科学进程有着巨大兴趣。一个关键优势是AI可以充当快速、随时可用的批评者,类似于预提交评议过程——在科学家正式提交论文发表之前。AI在评估草稿的漏洞和局限性方面表现相当不错,研究人员可以提前解决这些问题。这可以提高首次提交发表的草稿质量,减少后续的反复修改。在评议员方面,压力是真实存在的:随着提交量的增长,人类评议员负担过重,这可能导致评议质量下降和作者的挫败感。
AI作为同行评议员的优势和劣势在哪里
Zou认为现在还处于早期阶段,情况尚不明朗。到目前为止,除了发现漏洞和局限性外,AI在评议的客观、可验证方面表现相当不错。例如:"表一中的这个数字与文本中报告的数字不符",或"这个方程式与另一个方程式不匹配"。他总结说,AI在客观、可检查的不一致性和技术问题上表现最强,但在关于研究新颖性或重要性的主观判断上较弱。实际上,它的一些主观评估甚至可能带有阿谀奉承的色彩。
科学家与AI之间适当的工作关系是什么
与其他领域一样,AI应该支持和告知——而不是完全替代——人类决策。人类或人类团队必须做出最终的编辑决定,科学家必须为自己的工作承担责任。AI可以对早期草稿提供评论,指出遗漏,并在写作和研究方面提出改进建议——但科学家必须对整合和综合来自AI和人类评议员的反馈负责。也许随着AI的改进,这种情况可能会发生变化,但目前他认为这是合理的做法。
在Agents4Science会议上,他们公开了AI的提交和评议内容,为科学家社区创建了一个评议语料库。他们甚至邀请了诺贝尔经济学奖获得者独立评估一篇AI主导的论文。他在对该论文的评议中写道:"这在技术上实际上做得非常好。"
科学家在AI参与工作的透明度方面有什么责任
科学家必须坦诚说明AI在研究本身以及论文写作和评议中是如何、在哪里提供帮助的。他们应该在论文中准确说明AI的参与方式和使用的工具。这归结为问责制和明确的责任链,确保最终决定仍然由人类做出。
科学界对这项工作有什么反应
科学界对AI如何改进同行评议表现出巨大的兴趣和好奇心。他们在国际学习表征会议的实验表明,AI反馈提高了评议质量和评议员参与度。Agents4Science会议也收到了来自28个不同国家的300多篇AI主导的研究提交。基于此,许多会议和期刊现在正在探索使用大语言模型来辅助评议过程。
目前如何在工作中使用AI
Zou在日常研究任务中使用AI。例如,AI帮助他们编写代码。他还将AI用作预提交评议过程——在正式提交论文之前识别漏洞和局限性,并建议改进,这些都可以在人类同行评议开始前很久就得到解决。
这项研究将引向何处
他们将举办更多AI智能体会议,目标是建立证据和规范,以塑造AI在科学中的未来应用。该领域需要更仔细的测试。随着AI成为日常科学合作者——作家、编程员、批评者——科学界将不得不继续完善哪些角色属于机器,哪些属于人类,以及如何使这种关系既有用又值得信赖。AI在科学中的作用只会不断增长,科学界应该共同努力塑造未来的合作。
Q&A
Q1:AI在科学同行评议中有什么具体优势?
A:AI可以充当快速、随时可用的批评者,在论文正式提交前进行预评议。它擅长发现研究中的漏洞和局限性,识别客观、可验证的不一致性和技术问题,比如数据不匹配或方程式错误,帮助研究人员提前解决问题,提高草稿质量。
Q2:AI作为评议员有什么局限性?
A:AI在主观判断方面较弱,特别是在评估研究的新颖性或重要性时表现不佳。它的一些主观评估甚至可能带有阿谀奉承的色彩。因此,AI更适合处理客观、可检查的技术问题,而非需要专业判断的评价任务。
Q3:科学家使用AI辅助研究需要注意什么?
A:科学家必须保持透明度,坦诚说明AI在研究和论文写作中的具体参与方式和使用工具。最终决定必须由人类做出,科学家要为整合AI和人类评议员反馈负责,确保问责制和明确的责任链。
好文章,需要你的鼓励
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。