微软在一年一度的Build开发者大会上正式拉开帷幕,公司在主题演讲中宣布推出七款全新AI模型,其中包括微软首款推理模型。演讲中,微软AI首席执行官穆斯塔法·苏莱曼在介绍新模型时,再次强调了其实验室"人文主义超级智能"的发展理念。
以下是各款模型的功能详情。
MAI-Thinking-1:微软首款推理模型
微软AI首款推理模型MAI-Thinking-1在官方博客公告中表示,该模型基于"企业级、干净且已获商业授权的数据"进行训练。鉴于版权与AI使用问题引发的广泛争议(以及持续推进中的相关诉讼),此番声明对微软客户而言意义重大,不过这并非首家作出此类承诺的企业。
微软表示,这款拥有350亿参数的模型在独立评审员进行的盲测中超越了Anthropic的Sonnet 4.61,并在SWE Bench Pro编程基准测试中与Anthropic Opus 4.6持平。顺应当前AI领域盛行的智能体热潮,MAI-Thinking-1专为多步骤任务设计,目前已在微软Foundry平台以私人预览形式上线。
MAI-Code-1:专为GitHub调优的编程模型
与此同时,MAI-Code-1也正式加入微软AI产品家族,参与市场上顶尖编程模型的竞逐。微软将其描述为"超高效率"且"专为GitHub调优"的模型。MAI-Code-1已于同日上线Copilot和VS Code。
MAI-Image-2.5:首款图像生成模型
MAI-Image-2.5及其Flash版本是微软首款面向文本生成图像与图像转换图像任务的模型。据微软介绍,该模型在借鉴国际象棋评分体系改编而成的ELO评级系统中超越了Nano Banana Pro。MAI-Image-2.5系列模型现已上线PowerPoint和Foundry,并正在OneDrive中陆续推出。苏莱曼在主题演讲中介绍该模型时,其LM Arena排行榜排名已升至第三位,仅次于Nano Banana。
MAI-Transcribe-1.5及语音模型系列
MAI-Transcribe-1.5"在43种语言中实现了最先进的识别精度,流式传输功能也即将推出"。微软还同步发布了MAI-Voice-2及其Flash版本,新版本相较前代MAI-Voice-1新增了15种语言支持。这些模型的早期版本仅在两个月前才以预览形式发布,充分体现了今年AI新模型发布周期之快。
安全性与成本效益
苏莱曼特别强调:"所有内容从一开始就加入了水印。"他在提及新模型安全框架时作出上述表态,同时提到各模型在成本效率方面均有提升,部分模型相较同类竞品成本降低幅度高达10倍。微软表示,所有新款MAI模型均可在Fireworks AI上使用——该平台现已在Foundry上正式开放,同时支持Baseten和Open Router平台。
与梅奥诊所合作布局医疗AI
苏莱曼在AI模型发布环节的压轴介绍中,宣布与梅奥诊所开展合作,共同研发面向医疗领域的新一代前沿模型。这一项目加入了包括OpenAI和谷歌在内的众多企业打造医疗专属AI应用的行列。微软已推出Copilot Health,但数据隐私、安全性和模型幻觉问题,在医疗AI领域仍是不容忽视的隐患。
Q&A
Q1:MAI-Thinking-1推理模型有哪些技术优势?
A:MAI-Thinking-1是微软首款推理模型,拥有350亿参数,基于企业级商业授权数据训练。在独立盲测中超越Anthropic的Sonnet 4.61,并在SWE Bench Pro编程基准测试中与Anthropic Opus 4.6成绩持平。该模型专为多步骤任务设计,符合当前智能体发展趋势,目前在微软Foundry平台以私人预览形式开放使用。
Q2:MAI-Image-2.5支持哪些功能,已经在哪些平台上线?
A:MAI-Image-2.5是微软首款支持文本生成图像与图像转换图像任务的模型,在ELO评级系统中超越了Nano Banana Pro,发布时即登上LM Arena排行榜第三位。目前该模型已在PowerPoint和Foundry上正式上线,并陆续向OneDrive用户推出,同时提供Flash版本以满足不同需求。
Q3:微软新发布的MAI模型在成本和安全性方面有哪些改进?
A:苏莱曼表示,所有新款MAI模型均从底层引入水印机制,强化安全框架。在成本效率方面,部分模型相较同类竞品降幅高达10倍。所有MAI模型均可通过Fireworks AI、Baseten和Open Router平台访问,Fireworks AI现已在微软Foundry平台正式开放。
好文章,需要你的鼓励
今天讲的出海案例是开创电气,一家金华手持式电动工具制造商,在越南基地完成首款产品验收并形成80万台年产能力。
JETSPEC是由UC San Diego等机构联合提出的推测解码框架,通过树形因果掩码让草稿头在一次前向传播中生成分支一致的候选树,在MATH-500上实现最高9.64倍端到端加速。
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
本文介绍了中国科学院自动化所的研究,揭示了大型语言模型在多轮工具调用强化学习中崩溃的根本原因,并系统评估了五种监督信号对训练稳定性和泛化能力的影响。