/

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

商汤科技等机构联合开源了百亿级图文交错数据集OmniCorpus，规模是现有数据集的15倍，包含86亿张图像和16,960亿个文本标记。OmniCorpus数据集在多语言、多类型数据抓取上进行了优化，提高了内容提取的质量和完整性。通过人工反馈和自动过滤规则，确保了数据集的高质量。在VQA和Image Captioning等测试中，基于OmniCorpus预训练的模型表现出色，对训练多模态大模型有重要帮助。

商汤科技、清华大学、上海AI实验室、哈尔滨工业大学、香港中文大学、复旦大学和南京大学的研究人员联合开源了百亿级图文交错数据集——OmniCorpus。

与现有的MMC4、OBELICS等数据集相比，OmniCorpus在规模上扩大了15倍，包含86 亿张图像和16,960亿个文本标记。在数据质量上同样出色，不仅涵盖了英语网站，还包含了非英语网站及视频为中心的平台，确保了内容的广泛性和丰富性。

此外，OmniCorpus还可以从图像文本交织格式轻松降级为纯文本语料库或图像文本对，以满足不同领域研究需求。

开源地址：https://github.com/OpenGVLab/OmniCorpus

论文地址：https://arxiv.org/abs/2406.08418

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

OmniCorpus数据集介绍

为了抓取不同语言、类型的数据，研究人员对Trafilatura工具进行了优化，能够更准确地识别和提取HTML文档中的主要内容区域，同时处理更多语言的数据。

还增强了对图像的提取能力，确保了在没有足够文本内容的情况下，能够基于HTML结构的密度来增强部分区域，显著提高了内容提取的质量和完整性。

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

在提取到主题数据之后进入初步的文本过滤阶段，目的是去除那些质量极低的文档，包含大量数字、文本过长或过短填充文本的文档。

研究人员使用了Gopher和C4策略，并引入了一些启发式规则，例如，去除连续行数过多或单个词频过高的文档等，有效减少了数据集中的冗余。

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

随后又进行了图像过滤，包括模糊、尺寸、宽高比不合适的图像。根据LAION-5B的指导方针，任何审美分数低于3.7或NSFW分数高于0.8的图像也将被排除，确保了图像数据的质量和相关性。

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

为了进一步提升OmniCorpus数据集的质量，还引入了人工反馈机制会根据完整性、可理解性、流畅性、相关性和安全性等标准，对文档的子集进行大规模采样。然后手动设计额外的过滤规则，进一步去除低质量文档。

OmniCorpus测试数据

为了评估OmniCorpus数据集的性能，研究人员在VQA、Image Captioning、MLLM等测试平台上进行了综合测试。

在VQA视觉问答的众多子任务中，基于OmniCorpus数据集预训练的模型展现了强大的性能，不仅能够准确识别图像中的对象和场景，还能够理解问题的上下文给出准确的答案。

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

例如，在VQAv2测试中，模型的平均准确率达到了81.2%，在TextVQA上达到了61.7%，这比之前的训练数据集得分更高。

在Image Captioning测试任务中，OmniCorpus数据集的多样性和丰富性为模型提供了广泛的训练样本，使其能够捕捉到图像中的主要对象和事件，并理解和表达图像中的细节和情感。

在COCO Caption和Flickr30K Caption这两个图像描述基准测试中，基于OmniCorpus数据集预训练的模型生成的描述在质量和准确性上都有显著提升。所以，OmniCorpus数据集对于训练类似GPT-4o、Gemini等多模态大模型有很大的帮助。

来源：AIGC开放社区

0赞

好文章，需要你的鼓励

推荐文章

OpenAI CEO阿尔特曼承认当前处于AI泡沫期

人工智能

大语言模型

市场泡沫

2025-08-19

OpenAI CEO阿尔特曼承认当前处于AI泡沫期

OpenAI首席执行官Sam Altman表示，鉴于投资者的AI炒作和大量资本支出，我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋，但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户，是全球第五大网站。由于服务器容量不足，OpenAI无法发布已开发的更好模型，计划在不久的将来投资万亿美元建设数据中心。

阿里巴巴突破AI说话人视频生成技术壁垒：首次实现动作自然度、唇同步准确性和视觉质量的完美平衡

人工智能

音频驱动动画

多目标优化

2025-08-19

阿里巴巴突破AI说话人视频生成技术壁垒：首次实现动作自然度、唇同步准确性和视觉质量的完美平衡

阿里巴巴团队提出FantasyTalking2，通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集，训练三个专业模块分别优化不同维度，再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术，用户评价提升超12%。

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

人工智能

自然语言处理

混合架构优化

2025-08-19

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

英伟达推出新的小型语言模型Nemotron-Nano-9B-v2，拥有90亿参数，在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构，支持多语言处理和代码生成，可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程，并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练，采用企业友好的开源许可协议，支持商业化使用。

UC Berkeley团队突破AI内存瓶颈：让大模型推理快7倍的神奇方法

人工智能

内存优化

算法创新

2025-08-19

UC Berkeley团队突破AI内存瓶颈：让大模型推理快7倍的神奇方法

UC Berkeley团队提出XQUANT技术，通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7，升级版XQUANT-CL更可实现12.5倍节省，同时几乎不影响模型性能。研究针对现代AI模型特点进行优化，为在有限硬件资源下运行更强大AI模型提供了新思路。

2024

09/02

16:04

分享

点赞

AIGC开放社区

专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

最近文章 :

阅读更多内容，猛戳这里

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

业界热点:

数字化转型

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号京网文(2025) 0096-033号京字第20868号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　公开举报受理处置规则

网上有害信息举报专区：https://www.12377.cn

安全联盟认证