两款AI学术智能体:自动生成论文图表与同行评审

研究人员推出两款学术AI智能体:PaperVizAgent与ScholarPeer。PaperVizAgent由检索、规划、风格、可视化和评审五个子智能体协作,能从论文文本自动生成发表级学术图表,综合评分60.2,超越所有基线模型及人类基准线。ScholarPeer则模拟资深研究员工作流程,结合网络文献检索与多维问答引擎,自动生成深度同行评审报告,在公开数据集测评中胜率显著优于现有自动化评审方案。

学术研究工作流正在经历前所未有的变革,AI的快速发展是这一变革的核心驱动力。学术研究流程历来严谨繁琐,远不止构思想法和撰写论文那么简单。许多研究人员面临的一大难题,是如何有效地将研究成果可视化。尽管AI能够辅助文字撰写,但要生成顶级会议和期刊所要求的复杂方法论示意图和精确的统计图表,难度要大得多。与此同时,科学界依赖同行评审来维护已发表研究的学术严谨性,然而论文投稿数量的爆炸式增长使这一体系承受巨大压力,导致评审人疲惫不堪、评审质量参差不齐。随着大语言模型和多智能体系统日趋成熟,我们看到它们不仅仅是研究对象,更有潜力成为科学研究过程的主动参与者。

为此,我们推出两个全新的智能体框架:(一)PaperVizAgent(原名PaperBanana),一款用于绘制学术图表的可视化智能体;(二)ScholarPeer,一款能够自动且严格评估学术论文(包括论文中嵌入的图表)的评审智能体。这两款智能体专为辅助学术研究全生命周期而设计,旨在帮助科研人员将精力集中于创新本身,而非繁琐的辅助性工作。评估结果显示,PaperVizAgent能够稳定生成达到专家水准的图表,表现大幅优于主流基准模型(GPT-Image-1.5、Nano-Banana-Pro、Paper2Any);而ScholarPeer则能输出具有高度批判性、有文献依据支撑的评审意见,超越当前最先进的自动化评审工具。

PaperVizAgent介绍

PaperVizAgent是一个自主框架,旨在根据学术文本自动生成适合发表的学术插图。通过弥合技术描述与视觉传达之间的鸿沟,PaperVizAgent让研究人员能够直接从论文手稿中生成专业级图表。启动流程时,研究人员需提供两项输入内容。

PaperVizAgent框架协同调度五个专业化AI智能体,分别是:(1)检索智能体、(2)规划智能体、(3)风格智能体、(4)可视化智能体,以及(5)评审智能体。首先,检索智能体和规划智能体负责收集参考资料(例如,参照已有文献中的相关学术图表)并对内容进行组织整理。随后,风格智能体综合归纳美学规范,确保输出结果符合学术标准。可视化智能体负责渲染图像或生成可执行的Python代码用于统计图表绘制。最后,评审智能体将输出结果与原始文本进行对照评估。若发现不一致之处,评审智能体将向可视化智能体提供针对性反馈,触发迭代优化循环。通过这一多智能体系统的反复迭代,最终生成的插图既美观大方,又在技术层面准确无误。

在给定来源内容与传达意图后,PaperVizAgent会检索相关参考示例,并综合生成经过风格优化的描述,再通过迭代优化循环将该描述转化为最终插图。

在全面的实验评测中,PaperVizAgent持续优于各主流基准模型,包括直接提示法、少样本提示法以及当前最先进的可视化方法Paper2Any。系统采用比较评分指标(0至100分制,分值越高越好)进行严格评估,涵盖忠实度、简洁性、可读性和美观性四个关键维度。评测中使用的大语言模型评判器以人工绘制的图表作为输入进行校准,并将人类表现基准设定为50.0分。

PaperVizAgent取得了60.2分的优异总分,显著超越GPT-Image-1.5、Nano-Banana-Pro和Paper2Any等所有参评基准模型,也是唯一在综合评分上突破人类基准线50.0分的框架。从各细分维度来看,该系统在简洁性和美观性方面尤为突出,两项得分均远高于人类基准值;在统计图表生成方面,其表现同样达到了与人类相当的水平,充分体现了系统的多功能性。上述成果代表着自动化学术插图领域的重大突破。

ScholarPeer介绍

ScholarPeer是一个具有情境感知能力、支持搜索的多智能体框架,旨在模拟资深研究人员的工作流程,实现同行评审过程的自动化与质量提升。

与将评审视为简单文本生成任务的标准大语言模型不同,ScholarPeer依赖于情境获取与主动核验的双流程机制。它通过一个子领域历史智能体动态构建领域叙事,将评审内容锚定于实时的网络规模文献之中。基线侦察智能体则充当对抗性审计员,专门排查作者可能遗漏的数据集或对比基准。最后,多维度问答引擎对论文的技术主张进行严格核实,确保评审内容深入且基于事实。最终生成的评审报告涵盖详细摘要、优点、不足以及对作者的提问,形式与标准专家评审高度一致。

针对输入论文,ScholarPeer采用双流信息检索流程。情境与知识模块通过摘要生成器和具备搜索功能的文献综述工具,对内外部信息进行压缩整合。这些输入随后进入多维度问答引擎,该引擎围绕论文的创新性和技术可靠性生成并回答深度追问。最后,评审生成器综合以上输入及特定会议的评审规范,生成最终评审意见。

ScholarPeer的表现充分证明了将主动网络搜索与多智能体协同编排相结合在学术评审领域的巨大潜力。在大型公开数据集上的测试中,ScholarPeer在与当前最先进的自动化评审方法的对比评测中取得了显著的胜率优势。更重要的是,该系统的主动核验工作流大幅缩小了AI生成反馈与人类评审多样性之间的差距,所产出的评审意见批判性强、贴近实际,并深度植根于现有文献之中。

总结与展望

PaperVizAgent与ScholarPeer是我们探索AI辅助科研这一宏观方向的重要组成部分。通过分别应对论文发表生命周期中两个截然不同却同样繁重的阶段,这两款工具以协作者的角色提升了科学交流的质量,并能与其他工具协同,加速知识的传播与扩散。

尽管这两个框架已能为学术界带来即时且切实的价值,但这仅仅是我们探索旅程的起点。我们期望未来的研究人员能够拥有一套丰富且互联互通的AI助手生态系统,无缝融入科学研究工作流的每一个环节,我们也将在这一方向上持续深耕。

致谢

感谢Palash Goyal、Dawei Zhu、Mihir Parmar、Rui Meng、Yiwen Song、Yale Song、Hamid Palangi、Xiyu Wei、Sujian Li和Burak Gokturk对本项工作的宝贵贡献。

免责声明

PaperVizAgent与ScholarPeer均为实验性研究原型,并非面向生产环境的成熟工具。其自动生成的反馈、图表及评审意见仅供研究探索使用,不应作为编辑或出版决策的唯一依据。

Q&A

Q1:PaperVizAgent是什么?它能生成哪些类型的学术图表?

A:PaperVizAgent是一个自主智能体框架,能够根据学术文本自动生成适合发表的学术插图,包括方法论示意图和统计图表。它由五个专业化智能体协同工作,通过迭代优化确保图表在视觉上美观、技术上准确。在评测中,其综合得分为60.2分,是唯一超越人类基准线(50.0分)的框架,在简洁性和美观性维度上表现尤为突出。

Q2:ScholarPeer和普通大语言模型做论文评审有什么区别?

A:ScholarPeer与普通大语言模型的核心区别在于其双流程机制:它不仅做文本生成,还通过子领域历史智能体实时检索网络文献构建领域背景,并用基线侦察智能体专门查找作者遗漏的对比基准。多维度问答引擎则对论文技术主张进行严格核实。最终生成的评审报告包含摘要、优点、不足及对作者的追问,接近真实专家评审水准,并在公开数据集测试中显著优于现有自动化评审工具。

Q3:PaperVizAgent和ScholarPeer现在可以直接使用吗?

A:目前这两款工具均为实验性研究原型,尚未达到生产环境部署标准。官方明确说明,其自动生成的图表、反馈和评审意见仅供研究探索使用,不应作为编辑或出版决策的唯一依据。如需使用,需了解其局限性,并结合人工判断进行综合评估。

来源:Google

0赞

好文章,需要你的鼓励

2026

04/09

15:14

分享

点赞

邮件订阅