周四,法国大语言模型 (LLM) 开发商 Mistral 推出了一款面向处理复杂 PDF 文档的新 API。Mistral OCR 是一款光学字符识别 (OCR) API,可以将任何 PDF 转换为文本文件,使 AI 模型更容易处理。
作为 OpenAI ChatGPT 等流行生成式 AI 工具的基础,大语言模型对原始文本的处理效果特别好。因此,希望创建自己 AI 工作流的企业都意识到,以清晰格式存储和索引数据变得极其重要,这样才能在 AI 处理中重复使用这些数据。
与大多数 OCR API 不同,Mistral OCR 是一个多模态 API,能够检测文本块中交织的插图和照片。该 OCR API 会在这些图形元素周围创建边界框,并将其包含在输出中。
Mistral OCR 不会简单输出大段文本,而是以 Markdown 格式输出,这是开发人员用来在纯文本文件中添加链接、标题和其他格式元素的语法。
大语言模型在训练数据集中大量依赖 Markdown。同样,当使用 Mistral 的 Le Chat 或 OpenAI 的 ChatGPT 等 AI 助手时,它们经常使用 Markdown 来创建项目符号列表、添加链接或将某些元素加粗。助手应用程序会将 Markdown 输出无缝转换为富文本输出。这就是为什么随着生成式 AI 的蓬勃发展,原始文本和 Markdown 在近年来变得更加重要。
Mistral 联合创始人兼首席科学官 Guillaume Lample 表示:"多年来,组织积累了大量 PDF 或幻灯片格式的文档,这些文档对大语言模型 (特别是 RAG 系统) 来说是无法访问的。借助 Mistral OCR,我们的客户现在可以将丰富复杂的文档转换为所有语言的可读内容。"
他补充说:"对于需要简化访问海量内部文档的企业而言,这是 AI 助手广泛应用的关键一步。"
Mistral OCR 可通过 Mistral 自己的 API 平台或其云合作伙伴 (AWS、Azure、Google Cloud Vertex 等) 使用。对于处理机密或敏感数据的企业,Mistral 提供本地部署选项。
据这家总部位于巴黎的 AI 公司称,Mistral OCR 的性能优于 Google、Microsoft 和 OpenAI 的 API。该公司已经用包含数学表达式 (LaTeX 格式)、高级布局或表格的复杂文档测试了其 OCR 模型。它在处理非英语文档方面的表现也据称更好。
图片来源: Mistral
由于 Mistral OCR 专注于单一功能,该公司认为它比现有解决方案更快。与具有 OCR 功能 (以及许多其他功能) 的多模态大语言模型 GPT-4 相比,这一点并不令人惊讶。
Mistral 也在其 AI 助手 Le Chat 中使用 Mistral OCR。当用户上传 PDF 文件时,该公司在后台使用 Mistral OCR 来理解文档内容,然后再处理文本。
企业和开发者很可能会将 Mistral OCR 与 RAG (检索增强生成) 系统结合使用,将多模态文档作为大语言模型的输入。这有很多潜在用例。例如,我们可以设想律师事务所使用它来帮助快速处理大量文档。
RAG 是一种用于检索数据并将其作为生成式 AI 模型上下文的技术。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。