MIT研究人员开发图表理解AI训练数据集ChartNet

MIT与MIT-IBM计算研究实验室联合开发了专为图表理解设计的数据集ChartNet，包含逾百万张多样化图表及对应代码、文字描述、数值表格和问答对。研究团队利用两步合成数据生成流程，从单张图表出发可扩展出数百种变体。实验表明，基于ChartNet训练的小型开源视觉语言模型在数据提取、图表摘要等任务上显著超越体量更大的商业模型，有望帮助预算有限的中小企业低成本接入AI图表分析能力。

在竞争激烈的全球市场中，企业为了加速决策流程、提升决策质量，往往借助生成式 AI 模型来汇总和解读市场报告与财务文件中大量出现的图表。然而，即便是目前最先进的视觉语言模型，在处理此类任务时也时常表现欠佳——因为这项工作要求模型同时整合视觉、数值与语言理解能力。这意味着，企业即便投资引入了最前沿的模型，也可能收到不准确或不完整的信息。

为填补这一性能空缺，麻省理工学院（MIT）与MIT-IBM计算研究实验室的研究人员联合开发了一套专门面向视觉语言模型（VLM）的综合性训练资源，旨在教会模型有效解读图表内容。

研究团队采用一种全新的数据生成方法，构建了一个包含逾百万张多样化图表的高质量数据集。该数据集对每张图表图像中的视觉、语言和数值信息均进行了详细编码，从而使模型能够对图表内容进行稳健的推理分析。

研究人员将这一数据集命名为ChartNet，并用其训练了一系列开源视觉语言模型。测试结果显示，其中许多规模较小的模型在数据提取和图表摘要等任务上的表现，显著超越了体量大出数个量级的商业模型。

通过让开源模型的性能超越商业竞品，ChartNet有望帮助预算有限的中小企业更便捷地应用AI技术。该开源数据集可用于提升AI模型在商业趋势分析、科学图表解读等任务中的能力。

"我们将ChartNet打造成一站式图表理解解决方案，几乎覆盖了AI模型和使用者在训练过程中可能用到的一切资源。我们希望这项研究能够激励更多研究者探索如何用更小的模型、更少的算力达到最先进的性能水平。"论文第一作者、MIT电气工程与计算机科学系研究生Jovana Kondic表示。

论文合著者还包括来自MIT、MIT-IBM计算研究实验室及IBM Research的多位研究人员：IBM Research研究员Pengyuan Li、IBM Research高级科学家Dhiraj Joshi、IBM Research软件工程师Isaac Sanchez、MIT Schwarzman计算学院战略产业合作总监兼MIT-IBM计算研究实验室MIT方向负责人、MIT计算机科学与人工智能实验室（CSAIL）高级研究科学家Aude Oliva，以及MIT-IBM计算研究实验室首席科学家兼研究经理Rogerio Feris。该研究成果将在IEEE计算机视觉与模式识别大会（CVPR）上正式发布。

数据瓶颈制约发展

尽管研究人员在自然语言处理和自然图像推理方面已取得长足进展，但针对图表中复杂多模态数据的解读研究仍相对匮乏。Kondic指出，图表理解对于几乎所有行业的大小企业而言都是一项关键能力。

"金融行业高度依赖图表。如果视觉语言模型能够从图表中提取趋势描述等信息，将极大地推动下游众多业务流程的效率提升。"Joshi说道。

高质量训练数据的匮乏，是制约图表解读VLM发展的重要瓶颈。目前许多数据集中的图表图像数量有限，往往来源于互联网抓取，缺乏必要的规模和辅助信息，难以帮助模型有效理解图表背后的数据。

"与人类大脑不同，视觉语言模型可能需要在训练过程中看到数千个示例，才能可靠地识别一张折线图。"Kondic表示。

研究团队通过生成合成数据来突破上述局限。合成数据是由算法人工生成的，用于模拟真实数据的统计特性。

ChartNet数据集包含逾百万张高质量图表图像，以及每张图表对应的生成代码、文本描述和包含数值信息的数据表格。此外，每条数据还附有问答对，用于训练模型正确回答关于图表的问题。

"这些额外的数据模态引导模型将图表图像所编码的不同信息片段进行关联与对齐。"Kondic说。

两步式合成数据生成流程

为构建ChartNet，研究团队设计了一套两步式合成数据生成流水线。

第一步，自动化系统将现有图表图像转译为代码；第二步，系统对代码进行迭代增强，对图表的类型、数据值、主题、颜色等各类属性进行修改。

"我们可以从一张图表出发，以其为种子，生成数百种变体。正是凭借这一方法，我们才得以建立一个包含逾百万张多样图像的数据集。"Kondic解释道。

研究团队还引入了自动化质量审核流程，以确保合成数据的高质量，包括验证代码可执行性以及渲染图像的准确性与清晰度。

"我们不仅追求样本的多样性，更希望信息能够以有意义的方式呈现。"她说。

此外，ChartNet还收录了一部分由人类专家标注的图表数据，提供额外类型的图表及配套数据，并附有可靠性保证。Joshi补充指出，使用者可利用这些标注数据对现有VLM进行微调，进一步提升特定应用场景下的模型性能。

研究团队以ChartNet训练了IBM的Granite Vision系列模型及其他多个不同规模的开源模型，并在多项图表解读任务上对其进行了系统评估。结果表明，该数据集在图表重建、数据提取、图表摘要和图表问答等任务上全面提升了所有模型的准确率。在ChartNet的加持下，小型开源模型持续优于体量更大的商业模型。

"许多此前的训练数据集只关注对图表简单问题的回答。我们希望通过ChartNet超越这一局限，生成能够支撑全方位图表理解的数据。"Kondic说。

未来，研究团队计划持续扩充ChartNet，纳入更高复杂度的数据，并积极吸收研究社区的反馈意见。

本项研究得到MIT-IBM计算研究实验室的部分资助支持。

Q&A

Q1：ChartNet数据集包含哪些内容？

A：ChartNet数据集包含逾百万张高质量图表图像，以及每张图表对应的生成代码、文本描述和包含数值信息的数据表格。此外，每条数据还附有问答对，用于训练模型正确回答关于图表的问题。部分数据点还包含人类专家标注内容，提供额外类型的图表及可靠性保证。

Q2：ChartNet是怎么生成合成数据的？

A：ChartNet采用两步式合成数据生成流水线：首先，自动化系统将现有图表图像转译为代码；然后对代码进行迭代增强，修改图表类型、数据值、主题、颜色等属性，从一张图表出发可生成数百种变体。同时引入自动化质量审核流程，验证代码可执行性及渲染图像的准确性与清晰度。

Q3：用ChartNet训练的小型开源模型，真的能比大型商业模型效果更好吗？

A：根据研究结果，用ChartNet训练的小型开源模型在图表重建、数据提取、图表摘要和图表问答等多项任务上，确实显著超越了体量大出数个量级的商业模型。这意味着预算有限的中小企业也有机会借助开源模型，实现高质量的图表理解能力，降低AI应用门槛。

来源：MIT News

0赞

好文章，需要你的鼓励

MIT研究人员开发图表理解AI训练数据集ChartNet

来源：MIT News

2026

06/03

18:26

分享

点赞

麻省理工学院新系统GIFT：让AI将2D设计高效转化为3D模型

Canvas母公司Instructure与两度入侵其系统的黑客达成协议

Grafana Labs遭黑客入侵后拒绝支付赎金

纽约公共医疗系统遭黑客入侵，逾180万人数据及指纹信息被窃

GitHub遭黑客入侵，约3800个内部代码仓库数据被盗

7-Eleven数据泄露事件波及逾18.5万人个人信息

黑客组织ShinyHunters声称入侵逾百家机构Oracle PeopleSoft服务器

韩国零售巨头Coupang因数据泄露遭逾27亿元罚款

Oracle警告：PeopleSoft存在零日漏洞，逾百家企业遭黑客入侵

德克萨斯州政府数据泄露，逾300万份驾照与护照信息遭窃

密码管理工具LastPass遭遇Klue数据泄露，用户支持数据被窃

Klue确认2022年凭证遭滥用，黑客借此入侵多家客户系统

法院裁定马斯克须在苹果/OpenAI诉讼中提交特斯拉和SpaceX邮件

芯片热潮引爆韩国股市跻身全球第六，但泡沫隐忧渐显

AI编程智能体协作失败：两个模型合作效果不如一个

Motive发布Vision 26峰会成果，推动车队安全与运营效率全面升级

阿联酋AI战略成败已成衡量CEO领导力的终极考验

让AI生成自己的提示词，图像效果立竿见影

我为Claude Opus 4.8设置了10个诚实陷阱——一道法律题让它"崩了"

我们为何忽视AI对人类的影响？

Anthropic如何重塑SaaS格局，CIO们该何去何从

三星Galaxy Z Fold 8"宽屏版"再解折叠屏痛点，更多规格与图片曝光

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: