Microsoft 宣布成立了一个新的工程团队,CEO Satya Nadella 认为这个团队对于应对 AI 引发的软件开发流程和应用程序的重大变革至关重要。
在周一公开分享的一封信中,Nadella 向微软员工表示:"很明显,我们正在进入 AI 平台变革的下一个阶段。"
"2025 年将是以模型为核心的应用重塑所有应用类别的一年。与之前的任何平台变革相比,应用程序技术栈的每一层都将受到影响。这就像同时将 GUI、互联网服务器和云原生数据库引入应用程序技术栈。30 年的变革将在 3 年内完成!"
这位 CEO 认为,Microsoft 将"构建具有记忆、权限和行动空间的代理应用,这些应用将继承强大的模型能力。我们还将针对不同角色、业务流程和行业领域调整这些功能,以提升性能和安全性。此外,我们构建、部署和维护这些 AI 应用程序的方式也在发生根本性的变化,变得更具代理性。"
所谓"代理性"软件,指的是一类新兴的 AI 应用,它能够分析与特定业务流程或任务相关的数据,然后自主提出建议或采取行动。
Salesforce 已经开发出代理技术,据称可以"用自然语言自主处理销售咨询,回答问题,处理异议,并为销售人员安排会议"——这些都在 CRM 巨头自己的套件中完成。Salesforce 还表示,2025 年将不再招聘软件工程师。
代理 AI 可以跨不同供应商的应用程序工作。我们已经看到它被用于检测欺诈性金融交易的案例,它可以启动工作流程来拒绝可疑交易,并启动调查。
代理可以驱动工作流程是因为它通过 API 连接到多个应用程序。因此,检测到疑似欺诈会向其他应用程序发送指令,这些应用程序可能也会使用代理来处理传入的信息。
代理之间的通信和由此产生的行动被称为"代理工作流程"。理论上,大量繁琐工作都被推送到应用程序中处理,让人类可以专注于审查代理做出的决定和/或处理代理尚无法很好理解的复杂事务。
Nadella 认为构建人工智能代理应用和工作流程需要"一个全新的 AI 优先应用技术栈——包含新的 UI/UX 模式、用于构建代理的运行时、协调多个代理的能力,以及重新设计的管理和可观察性层。"
为此,Microsoft 成立了一个名为"CoreAI – 平台与工具"的工程组织。该团队由 Microsoft 开发者部门、AI 平台团队以及首席技术官办公室的一些核心团队组成。该团队的使命是"为我们的第一方和第三方客户构建端到端的 Copilot 和 AI 技术栈,以构建和运行 AI 应用程序和代理。"
该团队还将负责 GitHub Copilot,这反映了代理 AI 在分析现有代码库和开发活动时自动创建代码的潜力。
Nadella 表示:"我们内部的组织边界对我们的客户和竞争对手来说都毫无意义。"他最后指出:"在这个新阶段的成功将取决于拥有最好的 AI 平台、工具和基础设施。我们还有很多工作要做,前面有巨大的机遇,让我们一起期待构建下一个时代。"
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。