微软人工智能研究实验室周四宣布发布三款基础AI模型,能够生成文本、语音和图像内容。
此次发布标志着微软继续推进构建自有多模态AI模型体系,与竞争对手AI实验室展开竞争,尽管该公司仍与OpenAI保持紧密合作关系。
据公司新闻稿显示,MAI-Transcribe-1能够将25种不同语言的语音转录为文本,速度比微软Azure Fast服务快2.5倍。MAI-Voice-1是一个音频生成模型,用户可以在一秒钟内生成60秒的音频内容,并支持创建定制语音。MAI-Image-2是一个视频生成模型。
MAI-Image-2最初于3月19日在MAI Playground(一个新的大语言模型测试软件)上发布。现在,三款模型都在Microsoft Foundry平台上发布,转录和语音模型也可在MAI Playground中使用。
这些模型由微软MAI超级智能团队开发,该AI研究团队由微软AI首席执行官穆斯塔法·苏莱曼领导,于2025年11月成立并宣布。
"在微软AI,我们正在构建人文主义AI。我们在创建AI模型时有独特的视角——以人类为中心,优化人们的实际沟通方式,针对实际应用进行训练,"苏莱曼在博客文章中写道。"你们将很快在Foundry平台和微软产品体验中看到我们更多的模型。"
在日益拥挤的大语言模型市场中,MAI希望这些模型的卖点是比谷歌和OpenAI的模型更便宜,公司在博客文章中写道。
MAI-Transcribe-1起价为每小时0.36美元。MAI-Voice-1起价为每100万字符22美元,MAI-Image-2文本输入起价为每100万Token 5美元,图像输出为每100万Token 33美元。
尽管发布了自有模型,苏莱曼在接受VentureBeat采访时重申了微软对与OpenAI合作关系的承诺——尽管苏莱曼告诉The Verge,最近对该合作关系的重新谈判让微软能够真正推进这项超级智能研究。
微软已向这家AI研究实验室投资超过130亿美元,并通过多年合作关系在其各种产品中托管其模型。微软在芯片方面也采取同样立场:既生产自有产品,也从外部供应商采购。
Q&A
Q1:微软新发布的三款AI模型分别有什么功能?
A:MAI-Transcribe-1能够将25种不同语言的语音转录为文本,速度比微软Azure Fast服务快2.5倍;MAI-Voice-1是音频生成模型,用户可以在一秒钟内生成60秒音频并创建定制语音;MAI-Image-2是视频生成模型。
Q2:微软这些新AI模型的价格如何?
A:MAI-Transcribe-1起价为每小时0.36美元,MAI-Voice-1起价为每100万字符22美元,MAI-Image-2文本输入起价为每100万Token 5美元,图像输出为每100万Token 33美元,定价相比谷歌和OpenAI更具竞争优势。
Q3:微软发布自有AI模型后还会继续与OpenAI合作吗?
A:会继续合作。苏莱曼重申了微软对与OpenAI合作关系的承诺,微软已向OpenAI投资超过130亿美元。最近重新谈判的合作关系让微软既能推进自有超级智能研究,又保持与OpenAI的多年合作伙伴关系。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。