微软推出新转录模型迈向商业化"超级智能"愿景

微软AI首席执行官苏莱曼表示，公司正专注于追求以商业和生产力为核心的超级智能。新发布的MAI-Transcribe-1转录模型支持25种语言，能在嘈杂环境下进行会议转录、视频字幕和呼叫中心分析，GPU成本仅为同类模型的一半。该模型现已通过微软基础平台和AI游乐场商用化。微软采用10人小团队开发策略，旨在为企业和消费者提供实用的人工智能助手。

微软AI首席执行官穆斯塔法·苏莱曼已为这份新工作准备已久。在微软三月中旬进行大规模重组后，苏莱曼移交了部分职责，将重心转向追求超级智能。他透露，早在公开宣布前九个月就开始为这一转变做准备，而重新谈判与OpenAI的合同正式"解锁了微软追求超级智能的能力"。

"这是我们长期以来的计划"，苏莱曼表示，实现超级智能是"我的唯一焦点"。

商业化导向的超级智能定义

超级智能以及通用人工智能在AI行业的定义模糊且多变。对苏莱曼而言，这完全关乎商业和生产力。"超级智能真正的意义在于，这些模型是否能够为依赖我们提供世界级语言模型的数百万企业带来产品价值？"苏莱曼说，"这就是我们的重点。我们要为开发者、企业和众多消费者提供服务。"

AI公司面临着不断增长的营收压力，微软的计划也呼应了OpenAI的新战略。微软的重组将企业和消费者团队合并到Copilot AI旗下。苏莱曼专注于宏观战略，而前微软AI产品与增长企业副总裁雅各布·安德烈欧升任执行副总裁，负责新合并团队的工程、增长、产品和设计工作。

MAI-Transcribe-1模型发布

周四，微软发布了一款新的转录模型。据苏莱曼介绍，该模型的GPU成本仅为其他最先进模型的一半，为微软带来"巨大的成本节约"。

微软将MAI-Transcribe-1定位为"推动语音识别前沿发展"的产品，能够转录会议、为视频添加字幕，并分析呼叫中心交流，支持25种语言。该模型专为"具有挑战性"的录音条件而设计，包括背景噪音、低质量音频和重叠语音，训练数据结合了"人工策划"和机器转录的文本。

苏莱曼表示，源录音数据混合了受控录音室数据和承包商在各种背景噪音环境中的录音，从繁忙街道到儿童嬉闹声，还包括"来自开放网络的大量数据"。

该转录模型与现有的语音和图像生成模型MAI-Voice-1、MAI-Image-2一起，现已在微软Foundry和全新的微软AI游乐场平台上提供。这是这些模型首次"广泛用于商业用途"。MAI-Transcribe-1支持MP3、WAV和FLAC格式的音频文件。

小团队高效模式

苏莱曼将新模型在测试中的出色表现归功于一个专注的10人小团队。他说，建模团队已"摆脱了任何官僚主义束缚"，因为他们有一个支持团队负责管理供应商、寻找下载数据等工作。微软在语音和图像生成方面也采用了类似策略，其他公司也有相似举措——Meta、亚马逊和谷歌正在尝试扁平化组织结构，Anthropic也表示正在试验让几人组成的小团队在特定计算级别上自由发挥，看看能够取得什么成果。

人本化AI愿景

这款新转录模型是苏莱曼实现"以人为中心"AI愿景的一部分，这是微软偏爱的AI流行词"人文主义超级智能"的变体。"每个人口袋里都将有一个真正世界级的AI助手，对他们负责，站在他们一边，符合他们的利益，代表他们工作，"他说。

Q&A

Q1：微软的MAI-Transcribe-1转录模型有什么特点？

A：MAI-Transcribe-1是微软最新发布的转录模型，支持25种语言，能够转录会议、为视频添加字幕和分析呼叫中心交流。该模型专为挑战性录音条件设计，可处理背景噪音、低质量音频和重叠语音，GPU成本仅为其他最先进模型的一半。

Q2：苏莱曼如何定义微软追求的超级智能？

A：苏莱曼认为超级智能完全关乎商业和生产力，重点是这些模型是否能够为依赖微软提供世界级语言模型的数百万企业带来产品价值，目标是为开发者、企业和众多消费者提供服务。

Q3：微软采用什么策略来开发AI模型？

A：微软采用小团队高效模式，让专注的10人建模团队摆脱官僚主义束缚，由支持团队负责管理供应商和数据获取等工作。这种策略在语音和图像生成方面也有应用，类似于其他科技巨头的扁平化组织实验。

来源：The Verge

0赞

好文章，需要你的鼓励

微软推出新转录模型 迈向商业化"超级智能"愿景

来源：The Verge

2026

04/03

12:23

分享

点赞

开创电气越南基地形成80万台手持式电动工具年产能力

一次实验室意外或将彻底改变计算领域

借鉴生态学模型评估AI风险的新方法

苹果大幅上调硬件价格，AI内存需求是主因

Omen AI融资3100万美元，用微型光谱仪破解数据中心液冷难题

苹果涨价背后：AI军备竞赛让消费者买单

AI蔓延与Token消耗正在加剧企业IT超支问题

爆品之后：新消费品牌如何用数字化穿越增长瓶颈？

美国多源电子患者数据采集方法研究综述

RF MEMS技术如何最终实现"理想开关"

Kurt Petersen：从墨迹到微机电系统王国的传奇工程师

董事会要求AI回报，但团队尚未做好准备

微软发布三款新AI模型，超越传统文本处理边界

Alexa Plus AI推出餐饮配送服务，支持Uber Eats和Grubhub点餐

谷歌发布Gemma 4开源模型系列，基于Gemini 3技术打造

英联邦聚变系统公司借助磁体技术创收

微软发布三款基础AI模型挑战OpenAI与谷歌

仅用语音和鼠标开发两款应用：IDE是否已成历史？

MIT研究：AI对就业冲击将如潮水涌至而非海浪冲击

谷歌Gemma 4开源模型正式发布，手机也能运行强大本地AI

Oracle大规模裁员：AI替代人力成主要原因

泄露事件曝光Anthropic"Mythos"：专门针对网络安全的强大AI模型

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

《AI启示录》新华三《数字化领航》AI系列专刊

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

微软推出新转录模型迈向商业化"超级智能"愿景