微软发布三款新AI模型，超越传统文本处理边界

微软发布了三款非大语言模型的新AI工具：语音转录模型支持25种语言翻译，可用于视频字幕和会议转录；语音生成模型能创建60秒音频录音；第二代图像模型在生成速度和逼真度方面显著提升。这些模型现已在微软Foundry和MAI平台上线，未来将集成到Bing和PowerPoint中，体现了微软在AI市场的全面布局战略。

微软正在将AI模型发展重点扩展到传统大语言模型之外。该公司在周四宣布，将发布三款全新的AI模型：全新的语音和文本转录模型，以及第二代自主研发的图像模型。

语音和文本转录模型突破

这些语音和文本转录模型是微软首次推出的同类产品。转录模型能够将录音内容翻译成25种不同语言的文字，专门为视频字幕生成、会议转录和语音智能体而设计。语音模型则可以创建长达60秒的音频录制内容。

图像生成能力全面升级

微软表示，其第二代图像模型在生成速度和真实感方面都有显著提升，相比上一版本有了明显改进。这些模型现已在微软的Foundry和MAI平台上线，未来计划将MAI-Image-2集成到Bing搜索和PowerPoint演示软件中。

战略布局多元化AI市场

这些新模型清晰地表明微软正在寻求扩大其在AI市场的产品线覆盖。微软的Copilot已成为企业用户最受欢迎的聊天机器人之一，特别是对于已经使用微软Office 365套件和Azure云服务的用户。除了现已过时的原始图像模型外，微软此前主要专注于基于文本的模型，努力在众多竞争对手中将自己定位为安全、企业友好的选择。其最新的AI工具Copilot Cowork和Copilot Health就是这一策略的证明。

传统科技巨头的资源优势

这些模型也提醒人们，微软作为传统科技公司，拥有足够的资金和计算资源来投入这些"支线任务"，这是即使像OpenAI这样价值数十亿美元的初创公司也无法始终承担的。上周，OpenAI确认将停止其Sora AI视频应用，声称将重新聚焦于核心业务。2026年的AI行业一直在努力证明其工具在工作场所的实用性，特别是在Anthropic的Claude Code超越竞争对手的情况下。

生成媒体的成本挑战

生成式媒体，比如驱动AI图像和视频生成的模型，需要大量的计算和能源资源来运行，这些资源本可以用于其他地方。谷歌作为另一家在AI研究上投入数十亿美元预算的传统科技公司，本周表示不会放弃生成式媒体，但将努力让模型更具成本效益和能效，正如其新推出的Veo 3.1 Lite视频模型所体现的那样。

Q&A

Q1：微软发布的三款新AI模型分别有什么功能？

A：微软发布了语音转录模型、文本转录模型和第二代图像模型。转录模型可以将录音转换为25种语言的文字，主要用于视频字幕、会议转录和语音智能体；语音模型能创建长达60秒的音频；图像模型在生成速度和真实感方面都有显著提升。

Q2：这些AI模型什么时候能用上？

A：这些模型现已在微软的Foundry和MAI平台上线提供服务。未来微软计划将MAI-Image-2图像模型集成到Bing搜索引擎和PowerPoint演示软件中，开发者可以查看相关定价信息。

Q3：为什么微软要开发这些非文本类的AI模型？

A：微软希望扩大在AI市场的产品覆盖范围，超越传统的大语言模型。作为传统科技巨头，微软拥有足够的资金和计算资源投入这些多样化的AI技术研发，这是许多初创公司无法承担的，有助于在激烈的AI竞争中保持优势地位。

来源：cnet

0赞

好文章，需要你的鼓励

微软发布三款新AI模型，超越传统文本处理边界

来源：cnet

2026

04/03

12:23

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

企业用好Agent，关键不在“买一个智能体”｜原点Talk 分享会

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

Alexa Plus AI推出餐饮配送服务，支持Uber Eats和Grubhub点餐

谷歌发布Gemma 4开源模型系列，基于Gemini 3技术打造

英联邦聚变系统公司借助磁体技术创收

微软发布三款基础AI模型挑战OpenAI与谷歌

仅用语音和鼠标开发两款应用：IDE是否已成历史？

MIT研究：AI对就业冲击将如潮水涌至而非海浪冲击

谷歌Gemma 4开源模型正式发布，手机也能运行强大本地AI

Oracle大规模裁员：AI替代人力成主要原因

泄露事件曝光Anthropic"Mythos"：专门针对网络安全的强大AI模型

微软为Copilot研究智能体增加多模型AI功能，提升准确性

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: