阿里巴巴集团旗下的云计算部门阿里云在农历新年之际发布了其最新突破性的人工智能大语言模型:Qwen 2.5-Max,声称其性能超越了当今最强大的 AI 模型。
在过去两周内,这是继 DeepSeek 的 R1 推理模型之后中国发布的第二个重要大语言模型。中国 AI 研究初创公司 DeepSeek 此前声称,R1 模型能够与美国公司开发的最强大模型相媲美,且训练成本仅为后者的一小部分,这一说法引起了广泛关注。
阿里云在博客文章中表示:"我们开发的 Qwen 2.5-Max 是一个大规模混合专家 LLM 模型,该模型已经在超过 20 万亿个 token 上进行了预训练,并通过精选的监督微调和基于人类反馈的强化学习方法进行了后续训练。"
混合专家模型 (MoE) 是一种大语言模型架构,它使用多个专门模型协同工作,根据特定的专业领域更高效地处理复杂任务。这就像一个 AI 模型团队,每个模型都在特定知识子类别中表现出色,它们共同合作,结合各自的训练来回答问题和完成任务。
据阿里巴巴称,使用这种技术的新 Qwen 模型在关键基准测试中超越了 DeepSeek-V3(该初创公司在去年 12 月底发布的最新非推理模型),包括 ArenaHard、LiveBench 和 MMLU-Pro。公司还声称其性能超过了 Anthropic 的 Claude 3.5 Sonnet、OpenAI 的 GPT-4 和 Meta 的 Llama 3.1-401B。
该架构还使公司能够以更小的资源消耗构建模型,仅需要 20 万亿个 token 进行训练。这使得模型部署时能够使用更少的资源,并以更高的效率运行。
阿里云表示:"数据和模型规模的扩展不仅展示了模型智能的进步,也反映了我们在开创性研究方面的坚定承诺。我们致力于通过创新应用规模化强化学习来增强大语言模型的思维和推理能力。"
与其他开源的 Qwen 模型不同,Qwen 2.5-Max 目前仍是闭源的。阿里巴巴通过阿里云提供了与 OpenAI API 兼容的应用程序接口,方便开发者集成。用户还可以通过类似 ChatGPT 的聊天机器人界面 Qwen Chat 访问该模型。
阿里巴巴最近在去年 8 月还发布了新的视觉语言模型 Qwen2-VL。该模型具有先进的视频理解能力,可以处理长达 20 分钟的高质量视频并回答相关内容的问题。
好文章,需要你的鼓励
根据Gartner最新报告,微软凭借广泛的合作伙伴和平台生态系统在企业级AI领域占据主导地位,而谷歌凭借集成的AI代理技术栈和可扩展的企业采用支持在企业代理AI方面领先。报告涵盖近30个AI技术竞赛领域,包括数据基础设施、模型代理、行业解决方案和网络安全等类别。尽管科技巨头投入数十亿资金扩展AI基础设施,但企业仍在努力证明AI技术的商业价值,超过三分之二的企业困于生成式AI试点阶段。
微软亚洲研究院与清华大学联合提出双向感知塑造技术,通过创新的两阶段训练方法解决AI视觉理解中的关键问题。该技术让AI学会正确聚焦重要视觉信息,避免被无关内容误导。仅用1.3万训练样本就在八个基准测试中平均提升8.2%性能,超越使用数十万样本的专门模型,为AI视觉推理能力提升开辟新路径。
美国国家标准与技术研究院发布人工智能网络安全框架配置文件草案,旨在帮助组织安全使用AI系统。该文件围绕"安全"、"防御"和"阻止"三个重点领域,详细说明如何管理不同AI系统的网络安全挑战、利用AI增强网络防御能力以及阻止AI驱动的网络攻击。文件将网络安全框架的各个组件映射到具体建议上,覆盖入侵检测到供应链安全等各个方面。
上海交通大学研究团队开发了TimeBill框架,解决大语言模型在实时应用中的时间不确定性问题。该系统通过精确预测回答长度和执行时间,动态调整AI记忆管理策略,确保在规定时间内完成任务的同时保持回答质量。实验显示TimeBill在各种时间预算下都能实现最佳的完成率与性能平衡,为AI在自动驾驶、工业控制等安全关键领域的应用提供了重要技术支撑。