商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技等机构联合开源了百亿级图文交错数据集OmniCorpus,规模是现有数据集的15倍,包含86亿张图像和16,960亿个文本标记。OmniCorpus数据集在多语言、多类型数据抓取上进行了优化,提高了内容提取的质量和完整性。通过人工反馈和自动过滤规则,确保了数据集的高质量。在VQA和Image Captioning等测试中,基于OmniCorpus预训练的模型表现出色,对训练多模态大模型有重要帮助。
商汤科技、清华大学、上海AI实验室、哈尔滨工业大学、香港中文大学、复旦大学和南京大学的研究人员联合开源了百亿级图文交错数据集——OmniCorpus。
与现有的MMC4、OBELICS等数据集相比,OmniCorpus在规模上扩大了15倍,包含86 亿张图像和16,960亿个文本标记。在数据质量上同样出色,不仅涵盖了英语网站,还包含了非英语网站及视频为中心的平台,确保了内容的广泛性和丰富性。
此外,OmniCorpus还可以从图像文本交织格式轻松降级为纯文本语料库或图像文本对,以满足不同领域研究需求。
开源地址:https://github.com/OpenGVLab/OmniCorpus
论文地址:https://arxiv.org/abs/2406.08418
为了抓取不同语言、类型的数据,研究人员对Trafilatura工具进行了优化,能够更准确地识别和提取HTML文档中的主要内容区域,同时处理更多语言的数据。
还增强了对图像的提取能力,确保了在没有足够文本内容的情况下,能够基于HTML结构的密度来增强部分区域,显著提高了内容提取的质量和完整性。
在提取到主题数据之后进入初步的文本过滤阶段,目的是去除那些质量极低的文档,包含大量数字、文本过长或过短填充文本的文档。
研究人员使用了Gopher和C4策略,并引入了一些启发式规则,例如,去除连续行数过多或单个词频过高的文档等,有效减少了数据集中的冗余。
随后又进行了图像过滤,包括模糊、尺寸、宽高比不合适的图像。根据LAION-5B的指导方针,任何审美分数低于3.7或NSFW分数高于0.8的图像也将被排除,确保了图像数据的质量和相关性。
为了进一步提升OmniCorpus数据集的质量,还引入了人工反馈机制会根据完整性、可理解性、流畅性、相关性和安全性等标准,对文档的子集进行大规模采样。然后手动设计额外的过滤规则,进一步去除低质量文档。
为了评估OmniCorpus数据集的性能,研究人员在VQA、Image Captioning、MLLM等测试平台上进行了综合测试。
在VQA视觉问答的众多子任务中,基于OmniCorpus数据集预训练的模型展现了强大的性能,不仅能够准确识别图像中的对象和场景,还能够理解问题的上下文给出准确的答案。
例如,在VQAv2测试中,模型的平均准确率达到了81.2%,在TextVQA上达到了61.7%,这比之前的训练数据集得分更高。
在Image Captioning测试任务中,OmniCorpus数据集的多样性和丰富性为模型提供了广泛的训练样本,使其能够捕捉到图像中的主要对象和事件,并理解和表达图像中的细节和情感。
在COCO Caption和Flickr30K Caption这两个图像描述基准测试中,基于OmniCorpus数据集预训练的模型生成的描述在质量和准确性上都有显著提升。所以,OmniCorpus数据集对于训练类似GPT-4o、Gemini等多模态大模型有很大的帮助。
0赞好文章,需要你的鼓励
推荐文章
软件开发瓶颈是现代企业面临的关键挑战。本文探讨了消除瓶颈的有效策略,包括优化沟通、提高可视化、自动化流程和培养共同责任文化。专家建议通过异步更新、看板管理和自动化工具来提高效率。同时强调了数据质量、跨团队协作和持续改进的重要性。文章还提到了新兴技术如AI在解决瓶颈问题中的潜在应用。
随着人工智能技术的发展,深度伪造内容在网络上大量涌现,可能对我们的健康造成潜在威胁。从虚假名人代言到有害的AI生成医疗建议,深度伪造正在助长一波危险的虚假信息浪潮。本文探讨了深度伪造在医疗保健领域的负面影响,以及如何在这个充满虚假信息的时代保护自己的健康。
INCYMO.AI 推出了一个革新性的 AI 驱动创意平台,专注于移动游戏广告制作。该平台基于 10 万多个市场验证广告的数据分析,通过 AI 技术为游戏营销人员提供创意构思和广告生成服务。在创意疲劳、用户获取成本上升和隐私限制的当前环境下,该平台为游戏营销开辟了一条数据驱动的全新道路。
Databricks 与 Palantir 签署合作协议,开发出更优的大语言模型微调方法,并与 Anthropic 达成为期五年的战略联盟,将 Claude 大语言模型整合到其数据湖平台中。此次合作将为企业客户提供更强大的 AI 能力,包括军工级安全性、高效的模型训练以及全面的数据治理,助力企业打造专属 AI 应用。