打破文档格式壁垒：Mistral 新推出 PDF 转 AI 友好型 Markdown 文件服务

周四，法国大型语言模型（LLM）开发商Mistral推出了一款新API，专为处理复杂PDF文档的开发者设计。Mistral OCR是一种光学字符识别（OCR）API，可以将任何PDF转换为文本文件，以便AI模型更容易地进行处理。

周四，法国大语言模型 (LLM) 开发商 Mistral 推出了一款面向处理复杂 PDF 文档的新 API。Mistral OCR 是一款光学字符识别 (OCR) API，可以将任何 PDF 转换为文本文件，使 AI 模型更容易处理。

作为 OpenAI ChatGPT 等流行生成式 AI 工具的基础，大语言模型对原始文本的处理效果特别好。因此，希望创建自己 AI 工作流的企业都意识到，以清晰格式存储和索引数据变得极其重要，这样才能在 AI 处理中重复使用这些数据。

与大多数 OCR API 不同，Mistral OCR 是一个多模态 API，能够检测文本块中交织的插图和照片。该 OCR API 会在这些图形元素周围创建边界框，并将其包含在输出中。

Mistral OCR 不会简单输出大段文本，而是以 Markdown 格式输出，这是开发人员用来在纯文本文件中添加链接、标题和其他格式元素的语法。

大语言模型在训练数据集中大量依赖 Markdown。同样，当使用 Mistral 的 Le Chat 或 OpenAI 的 ChatGPT 等 AI 助手时，它们经常使用 Markdown 来创建项目符号列表、添加链接或将某些元素加粗。助手应用程序会将 Markdown 输出无缝转换为富文本输出。这就是为什么随着生成式 AI 的蓬勃发展，原始文本和 Markdown 在近年来变得更加重要。

Mistral 联合创始人兼首席科学官 Guillaume Lample 表示："多年来，组织积累了大量 PDF 或幻灯片格式的文档，这些文档对大语言模型 (特别是 RAG 系统) 来说是无法访问的。借助 Mistral OCR，我们的客户现在可以将丰富复杂的文档转换为所有语言的可读内容。"

他补充说："对于需要简化访问海量内部文档的企业而言，这是 AI 助手广泛应用的关键一步。"

Mistral OCR 可通过 Mistral 自己的 API 平台或其云合作伙伴 (AWS、Azure、Google Cloud Vertex 等) 使用。对于处理机密或敏感数据的企业，Mistral 提供本地部署选项。

据这家总部位于巴黎的 AI 公司称，Mistral OCR 的性能优于 Google、Microsoft 和 OpenAI 的 API。该公司已经用包含数学表达式 (LaTeX 格式)、高级布局或表格的复杂文档测试了其 OCR 模型。它在处理非英语文档方面的表现也据称更好。

图片来源： Mistral

由于 Mistral OCR 专注于单一功能，该公司认为它比现有解决方案更快。与具有 OCR 功能 (以及许多其他功能) 的多模态大语言模型 GPT-4 相比，这一点并不令人惊讶。

Mistral 也在其 AI 助手 Le Chat 中使用 Mistral OCR。当用户上传 PDF 文件时，该公司在后台使用 Mistral OCR 来理解文档内容，然后再处理文本。

企业和开发者很可能会将 Mistral OCR 与 RAG (检索增强生成) 系统结合使用，将多模态文档作为大语言模型的输入。这有很多潜在用例。例如，我们可以设想律师事务所使用它来帮助快速处理大量文档。

RAG 是一种用于检索数据并将其作为生成式 AI 模型上下文的技术。

来源：Techcrunch

0赞

好文章，需要你的鼓励

打破文档格式壁垒：Mistral 新推出 PDF 转 AI 友好型 Markdown 文件服务

来源：Techcrunch

2025

03/07

09:36

分享

点赞

稚晖君发布全球最小全身力控人形机器人，上纬启元开启个人机器人时代

2026年软件定价大洗牌：IT领导者必须知道的关键变化

Linux 在 2026 年将势不可挡，但一个开源传奇可能难以为继

CES 2026趋势展望：全球最大科技展五大热门话题预测

人工智能时代为何编程技能比以往更重要

AI颠覆云优先战略：混合计算成为唯一出路

谷歌发布JAX-Privacy 1.0：大规模差分隐私机器学习工具库

谷歌量子AI发布新型优化算法DQI：量子计算优化领域的重大突破

缓解电动汽车里程焦虑：简单AI模型如何预测充电桩可用性

Titans + MIRAS：让AI拥有长期记忆能力

Gemini为STOC 2026大会理论计算机科学家提供自动化反馈

夸克AI眼镜持续升级：首次OTA，支持89种语言翻译

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: