微软人工智能研究实验室周四宣布发布三款基础AI模型,能够生成文本、语音和图像内容。
此次发布标志着微软继续推进构建自有多模态AI模型体系,与竞争对手AI实验室展开竞争,尽管该公司仍与OpenAI保持紧密合作关系。
据公司新闻稿显示,MAI-Transcribe-1能够将25种不同语言的语音转录为文本,速度比微软Azure Fast服务快2.5倍。MAI-Voice-1是一个音频生成模型,用户可以在一秒钟内生成60秒的音频内容,并支持创建定制语音。MAI-Image-2是一个视频生成模型。
MAI-Image-2最初于3月19日在MAI Playground(一个新的大语言模型测试软件)上发布。现在,三款模型都在Microsoft Foundry平台上发布,转录和语音模型也可在MAI Playground中使用。
这些模型由微软MAI超级智能团队开发,该AI研究团队由微软AI首席执行官穆斯塔法·苏莱曼领导,于2025年11月成立并宣布。
"在微软AI,我们正在构建人文主义AI。我们在创建AI模型时有独特的视角——以人类为中心,优化人们的实际沟通方式,针对实际应用进行训练,"苏莱曼在博客文章中写道。"你们将很快在Foundry平台和微软产品体验中看到我们更多的模型。"
在日益拥挤的大语言模型市场中,MAI希望这些模型的卖点是比谷歌和OpenAI的模型更便宜,公司在博客文章中写道。
MAI-Transcribe-1起价为每小时0.36美元。MAI-Voice-1起价为每100万字符22美元,MAI-Image-2文本输入起价为每100万Token 5美元,图像输出为每100万Token 33美元。
尽管发布了自有模型,苏莱曼在接受VentureBeat采访时重申了微软对与OpenAI合作关系的承诺——尽管苏莱曼告诉The Verge,最近对该合作关系的重新谈判让微软能够真正推进这项超级智能研究。
微软已向这家AI研究实验室投资超过130亿美元,并通过多年合作关系在其各种产品中托管其模型。微软在芯片方面也采取同样立场:既生产自有产品,也从外部供应商采购。
Q&A
Q1:微软新发布的三款AI模型分别有什么功能?
A:MAI-Transcribe-1能够将25种不同语言的语音转录为文本,速度比微软Azure Fast服务快2.5倍;MAI-Voice-1是音频生成模型,用户可以在一秒钟内生成60秒音频并创建定制语音;MAI-Image-2是视频生成模型。
Q2:微软这些新AI模型的价格如何?
A:MAI-Transcribe-1起价为每小时0.36美元,MAI-Voice-1起价为每100万字符22美元,MAI-Image-2文本输入起价为每100万Token 5美元,图像输出为每100万Token 33美元,定价相比谷歌和OpenAI更具竞争优势。
Q3:微软发布自有AI模型后还会继续与OpenAI合作吗?
A:会继续合作。苏莱曼重申了微软对与OpenAI合作关系的承诺,微软已向OpenAI投资超过130亿美元。最近重新谈判的合作关系让微软既能推进自有超级智能研究,又保持与OpenAI的多年合作伙伴关系。
好文章,需要你的鼓励
今天讲的出海案例是开创电气,一家金华手持式电动工具制造商,在越南基地完成首款产品验收并形成80万台年产能力。
牛津、MIT等机构联合发布GauntletBench,测试显示最强AI智能体完成率仅19%,而普通人类完成率超80%,揭示AI在时间感知、图形理解和三维推理上的真实短板。
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
论文提出"盲目信任问题":现有视频AI将每帧画面等权处理,遭遇干扰时准确率暴跌却浑然不知。Robust-TO通过逐帧质量评估、置信度引导工具路由和分级证据推理三阶段框架解决这一缺陷。