/

微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

为了解决训练数据短缺和质量差的难题，微软研究院发布了一个专门用于生成高质量合成数据的的AI Agent——Agent Instruct。

随着ChatGPT、Copliot等生成式AI产品的快速迭代，对训练数据的需求呈指数级增长，同时也是提升大模型性能的关键环节之一。

为了解决训练数据短缺和质量差的难题，微软研究院发布了一个专门用于生成高质量合成数据的的AI Agent——Agent Instruct。

论文地址：https://arxiv.org/abs/2407.03502

微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

为了突破传统合成数据的拟合性、多元化性差等，AgentInstruct使用了一种创新性方法“生成教学”（Generative Teaching），并通过多种智能体共同协作自动完成数据转换、清洗、优化从而合成高质量数据。

AgentInstruct会先收集各种原始数据种子，例如，教科书章节、网络文章、代码片段等。这些种子作为后续数据合成的基础，为模型提供了丰富的信息来源。

然后通过Content Transformation Agents智能体将原始的种子材料转换成一种中间形式，这种形式简化了后续步骤中针对具体目标创建指令的过程。

例如，一个简单的文本段落会被转换成一个论点段落、会议记录转录内容、API列表等。通过转换过程使得原本无结构的内容变得更加有条理，同时也保留了原始材料的多样性和丰富性。

微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

在种子指令创建流程中，Instruction Creation Agents智能体会进一步处理这些经过初步转换的内容，创造出多样化的指令。

这些指令可以是要求模型执行某一特定任务的请求，例如，修改一段文字、编写一个故事、解释一个概念或是完成一个编码任务。

微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

该阶段的目标是生成一系列具有挑战性且多样的任务，从而让模型在训练过程中接触到尽可能多的不同类型的任务。

为了进一步提指令的质量和复杂性，研究人员引入了指令细化流程，通过Refinement Agents智能体对指令进行深入的迭代优化，确保每一条指令都能够更加精准地达到预期的数据效果。

微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

在细化的过程中，智能体首先提出各种可能的改进方案，旨在增加指令的复杂性、多样性和质量。例如，可能会提出修改指令中的某些部分，使得原本直接的问题变得更加间接，或者增加一些需要模型进行推理才能得出答案的元素。

然后再对改进后的方案进行一步优化，并且在语言表述上保持清晰和准确。智能体会仔细审核每一条建议的可行性和效果，然后以一种合理的方式整合到指令中。整个流程会反复进行迭代、优化，直到达到预期的合成数据规模和质量水平。

研究人员通过Agent Instruct自动生成了2500万个配对的高质量合成数据集，包含文本编辑、创意写作、编程、阅读理解等。然后再用生成的数据对Mistral-7b模型进行了训练、微调，开发了Orca-3模型。

微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

在一系列基准测试中，Orca-3相比原来的Mistral-7b-Instruct的模型性能提升巨大。例如，在AGIEval上提升了40%，MMLU上提高了19%，GSM8K上进步了54%，BBH上提升了38%，AlpacaEval上提升了45%。同时，Orca-3在多项指标上也超越了LLAMA-8B-instruct和GPT-3.5-turbo等其他模型。

来源：AIGC开放社区

0赞

好文章，需要你的鼓励

推荐文章

腾讯开源混元MT翻译模型系列

人工智能

机器翻译

开源模型

2025-09-11

腾讯开源混元MT翻译模型系列

腾讯今日开源混元MT系列语言模型，专门针对翻译任务进行优化。该系列包含四个模型，其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练，并采用强化学习进行优化。在WMT25基准测试中，混元MT在31个语言对中的30个表现优于谷歌翻译，某些情况下得分高出65%，同时也超越了GPT-4.1和Claude 4 Sonnet等模型。

如何让AI像电影配乐师一样创作完整的长篇音频故事——腾讯ARC实验室团队AudioStory突破性进展

音频生成

大语言模型

多模态AI

2025-09-10

如何让AI像电影配乐师一样创作完整的长篇音频故事——腾讯ARC实验室团队AudioStory突破性进展

腾讯ARC实验室推出AudioStory系统，首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术，通过交错式推理生成、解耦桥接机制和渐进式训练，能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异，为AI音频创作开辟新方向。

Unity Stoakes谈科技、科学与设计的融合变革全球健康

数字健康

生物技术

创新生态

2025-09-11

Unity Stoakes谈科技、科学与设计的融合变革全球健康

今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中，网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年，致力于变革全球健康。他认为，Frontiers Health通过精心选择的空间促进有意义的网络建设，利用网络效应推进创新力量，让企业家共同构建并带来改变，从而有益地影响全球人类福祉。

Meta与特拉维夫大学联手打造VideoJAM：让AI生成的视频动起来不再是奢望

视频生成

深度学习

多模态学习

2025-09-09

Meta与特拉维夫大学联手打造VideoJAM：让AI生成的视频动起来不再是奢望

Meta与特拉维夫大学联合研发的VideoJAM技术，通过让AI同时学习外观和运动信息，显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量，在多项测试中超越包括Sora在内的商业模型，为AI视频生成的实用化应用奠定了重要基础。

2024

09/09

20:04

分享

点赞

AIGC开放社区

专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

最近文章 :

阅读更多内容，猛戳这里

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

业界热点:

数字化转型

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号京网文(2025) 0096-033号京字第20868号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　公开举报受理处置规则

网上有害信息举报专区：https://www.12377.cn

安全联盟认证