中国科技巨头腾讯控股有限公司今日发布了一款名为混元 Turbo S 的新人工智能模型,这是一款被设计为"快思考模型"的产品,旨在与 DeepSeek-R1 等所谓的"慢思考"模型展开竞争。
该公司解释说,通过将输出速度提高一倍并将首字输出延迟减少近 44%,该模型能够在一秒内实现"即时回复"。
与 DeepSeek-R1 和其他"推理模型"不同,该公司表示这些模型往往是"思考一下再回答",而新的 Turbo S 模型能够立即开始回答,它使用一个类似于人类直觉的短思考链。这种机制与提供科学、数学和理性答案的慢思考链相融合。
公司表示,在数学、推理和知识等基准测试中,混元 Turbo S 展现出与市场领先模型(如 DeepSeek-V3、OpenAI 的 GPT-4 和 Anthropic PBC 的 Claude)相当的性能。
近几个月来,中国企业 DeepSeek 的 AI 模型(如 R1 和 V3)取得的显著成功引发了广泛关注,促使众多 AI 模型开发商迅速推出竞争产品。竞争异常激烈,包括中国的阿里巴巴集团推出的 Qwen 2.5-Max 模型,声称性能超过 V3。
为了创建这个模型,腾讯使用了 Hybrid-Mamba-Transformer 融合技术,以降低模型 Transformer 架构的计算复杂度和 KV-Cache。最终的模型是一个混合体,可以使用擅长处理长序列的 Mamba 深度学习架构,同时保持 Transformer 理解数据中复杂思想和陈述背景的能力。
腾讯在公告中表示:"这也是业界首次成功将 Mamba 架构应用于超大规模混合专家模型而不造成性能损失。"
混合专家技术是一种机器学习方法,其中多个 AI 模型根据不同的专业领域被分开,并协同工作以解决问题。
该公司还表示,新架构显著降低了训练和部署成本。随着 DeepSeek 等竞争对手以低价推出具有竞争力的模型,这促使腾讯和其他公司降低服务价格,并研究更高效的 AI 训练和推理方法。
好文章,需要你的鼓励
软件开发瓶颈是现代企业面临的关键挑战。本文探讨了消除瓶颈的有效策略,包括优化沟通、提高可视化、自动化流程和培养共同责任文化。专家建议通过异步更新、看板管理和自动化工具来提高效率。同时强调了数据质量、跨团队协作和持续改进的重要性。文章还提到了新兴技术如AI在解决瓶颈问题中的潜在应用。
随着人工智能技术的发展,深度伪造内容在网络上大量涌现,可能对我们的健康造成潜在威胁。从虚假名人代言到有害的AI生成医疗建议,深度伪造正在助长一波危险的虚假信息浪潮。本文探讨了深度伪造在医疗保健领域的负面影响,以及如何在这个充满虚假信息的时代保护自己的健康。
INCYMO.AI 推出了一个革新性的 AI 驱动创意平台,专注于移动游戏广告制作。该平台基于 10 万多个市场验证广告的数据分析,通过 AI 技术为游戏营销人员提供创意构思和广告生成服务。在创意疲劳、用户获取成本上升和隐私限制的当前环境下,该平台为游戏营销开辟了一条数据驱动的全新道路。
Databricks 与 Palantir 签署合作协议,开发出更优的大语言模型微调方法,并与 Anthropic 达成为期五年的战略联盟,将 Claude 大语言模型整合到其数据湖平台中。此次合作将为企业客户提供更强大的 AI 能力,包括军工级安全性、高效的模型训练以及全面的数据治理,助力企业打造专属 AI 应用。