在竞争激烈的全球市场中,企业为了加速决策流程、提升决策质量,往往借助生成式 AI 模型来汇总和解读市场报告与财务文件中大量出现的图表。然而,即便是目前最先进的视觉语言模型,在处理此类任务时也时常表现欠佳——因为这项工作要求模型同时整合视觉、数值与语言理解能力。这意味着,企业即便投资引入了最前沿的模型,也可能收到不准确或不完整的信息。
为填补这一性能空缺,麻省理工学院(MIT)与MIT-IBM计算研究实验室的研究人员联合开发了一套专门面向视觉语言模型(VLM)的综合性训练资源,旨在教会模型有效解读图表内容。
研究团队采用一种全新的数据生成方法,构建了一个包含逾百万张多样化图表的高质量数据集。该数据集对每张图表图像中的视觉、语言和数值信息均进行了详细编码,从而使模型能够对图表内容进行稳健的推理分析。
研究人员将这一数据集命名为ChartNet,并用其训练了一系列开源视觉语言模型。测试结果显示,其中许多规模较小的模型在数据提取和图表摘要等任务上的表现,显著超越了体量大出数个量级的商业模型。
通过让开源模型的性能超越商业竞品,ChartNet有望帮助预算有限的中小企业更便捷地应用AI技术。该开源数据集可用于提升AI模型在商业趋势分析、科学图表解读等任务中的能力。
"我们将ChartNet打造成一站式图表理解解决方案,几乎覆盖了AI模型和使用者在训练过程中可能用到的一切资源。我们希望这项研究能够激励更多研究者探索如何用更小的模型、更少的算力达到最先进的性能水平。"论文第一作者、MIT电气工程与计算机科学系研究生Jovana Kondic表示。
论文合著者还包括来自MIT、MIT-IBM计算研究实验室及IBM Research的多位研究人员:IBM Research研究员Pengyuan Li、IBM Research高级科学家Dhiraj Joshi、IBM Research软件工程师Isaac Sanchez、MIT Schwarzman计算学院战略产业合作总监兼MIT-IBM计算研究实验室MIT方向负责人、MIT计算机科学与人工智能实验室(CSAIL)高级研究科学家Aude Oliva,以及MIT-IBM计算研究实验室首席科学家兼研究经理Rogerio Feris。该研究成果将在IEEE计算机视觉与模式识别大会(CVPR)上正式发布。
数据瓶颈制约发展
尽管研究人员在自然语言处理和自然图像推理方面已取得长足进展,但针对图表中复杂多模态数据的解读研究仍相对匮乏。Kondic指出,图表理解对于几乎所有行业的大小企业而言都是一项关键能力。
"金融行业高度依赖图表。如果视觉语言模型能够从图表中提取趋势描述等信息,将极大地推动下游众多业务流程的效率提升。"Joshi说道。
高质量训练数据的匮乏,是制约图表解读VLM发展的重要瓶颈。目前许多数据集中的图表图像数量有限,往往来源于互联网抓取,缺乏必要的规模和辅助信息,难以帮助模型有效理解图表背后的数据。
"与人类大脑不同,视觉语言模型可能需要在训练过程中看到数千个示例,才能可靠地识别一张折线图。"Kondic表示。
研究团队通过生成合成数据来突破上述局限。合成数据是由算法人工生成的,用于模拟真实数据的统计特性。
ChartNet数据集包含逾百万张高质量图表图像,以及每张图表对应的生成代码、文本描述和包含数值信息的数据表格。此外,每条数据还附有问答对,用于训练模型正确回答关于图表的问题。
"这些额外的数据模态引导模型将图表图像所编码的不同信息片段进行关联与对齐。"Kondic说。
两步式合成数据生成流程
为构建ChartNet,研究团队设计了一套两步式合成数据生成流水线。
第一步,自动化系统将现有图表图像转译为代码;第二步,系统对代码进行迭代增强,对图表的类型、数据值、主题、颜色等各类属性进行修改。
"我们可以从一张图表出发,以其为种子,生成数百种变体。正是凭借这一方法,我们才得以建立一个包含逾百万张多样图像的数据集。"Kondic解释道。
研究团队还引入了自动化质量审核流程,以确保合成数据的高质量,包括验证代码可执行性以及渲染图像的准确性与清晰度。
"我们不仅追求样本的多样性,更希望信息能够以有意义的方式呈现。"她说。
此外,ChartNet还收录了一部分由人类专家标注的图表数据,提供额外类型的图表及配套数据,并附有可靠性保证。Joshi补充指出,使用者可利用这些标注数据对现有VLM进行微调,进一步提升特定应用场景下的模型性能。
研究团队以ChartNet训练了IBM的Granite Vision系列模型及其他多个不同规模的开源模型,并在多项图表解读任务上对其进行了系统评估。结果表明,该数据集在图表重建、数据提取、图表摘要和图表问答等任务上全面提升了所有模型的准确率。在ChartNet的加持下,小型开源模型持续优于体量更大的商业模型。
"许多此前的训练数据集只关注对图表简单问题的回答。我们希望通过ChartNet超越这一局限,生成能够支撑全方位图表理解的数据。"Kondic说。
未来,研究团队计划持续扩充ChartNet,纳入更高复杂度的数据,并积极吸收研究社区的反馈意见。
本项研究得到MIT-IBM计算研究实验室的部分资助支持。
Q&A
Q1:ChartNet数据集包含哪些内容?
A:ChartNet数据集包含逾百万张高质量图表图像,以及每张图表对应的生成代码、文本描述和包含数值信息的数据表格。此外,每条数据还附有问答对,用于训练模型正确回答关于图表的问题。部分数据点还包含人类专家标注内容,提供额外类型的图表及可靠性保证。
Q2:ChartNet是怎么生成合成数据的?
A:ChartNet采用两步式合成数据生成流水线:首先,自动化系统将现有图表图像转译为代码;然后对代码进行迭代增强,修改图表类型、数据值、主题、颜色等属性,从一张图表出发可生成数百种变体。同时引入自动化质量审核流程,验证代码可执行性及渲染图像的准确性与清晰度。
Q3:用ChartNet训练的小型开源模型,真的能比大型商业模型效果更好吗?
A:根据研究结果,用ChartNet训练的小型开源模型在图表重建、数据提取、图表摘要和图表问答等多项任务上,确实显著超越了体量大出数个量级的商业模型。这意味着预算有限的中小企业也有机会借助开源模型,实现高质量的图表理解能力,降低AI应用门槛。
好文章,需要你的鼓励
伊朗裔英国导演Ash Koosha耗时两个半月,以不足2000美元的成本,借助AI技术完成了一部关于伊朗反政府抗议镇压事件的75分钟剧情片《紫罗兰之梦》。该片即将在纽约翠贝卡电影节首映,成为首部入围顶级电影节的全AI真人故事片。导演认为,AI技术可大幅降低独立电影制作门槛,有望重塑整个影视行业格局。
耶路撒冷希伯来大学研究团队提出PhyGenHOI框架,将人体运动生成与物理仿真结合,让虚拟人物与三维物体之间的接触互动同时满足视觉自然性和物理真实性。
MIT与MIT-IBM计算研究实验室联合开发了专为图表理解设计的数据集ChartNet,包含逾百万张多样化图表及对应代码、文字描述、数值表格和问答对。研究团队利用两步合成数据生成流程,从单张图表出发可扩展出数百种变体。实验表明,基于ChartNet训练的小型开源视觉语言模型在数据提取、图表摘要等任务上显著超越体量更大的商业模型,有望帮助预算有限的中小企业低成本接入AI图表分析能力。
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。