中国科技巨头腾讯控股有限公司今日发布了一款名为混元 Turbo S 的新人工智能模型,这是一款被设计为"快思考模型"的产品,旨在与 DeepSeek-R1 等所谓的"慢思考"模型展开竞争。
该公司解释说,通过将输出速度提高一倍并将首字输出延迟减少近 44%,该模型能够在一秒内实现"即时回复"。
与 DeepSeek-R1 和其他"推理模型"不同,该公司表示这些模型往往是"思考一下再回答",而新的 Turbo S 模型能够立即开始回答,它使用一个类似于人类直觉的短思考链。这种机制与提供科学、数学和理性答案的慢思考链相融合。
公司表示,在数学、推理和知识等基准测试中,混元 Turbo S 展现出与市场领先模型(如 DeepSeek-V3、OpenAI 的 GPT-4 和 Anthropic PBC 的 Claude)相当的性能。
近几个月来,中国企业 DeepSeek 的 AI 模型(如 R1 和 V3)取得的显著成功引发了广泛关注,促使众多 AI 模型开发商迅速推出竞争产品。竞争异常激烈,包括中国的阿里巴巴集团推出的 Qwen 2.5-Max 模型,声称性能超过 V3。
为了创建这个模型,腾讯使用了 Hybrid-Mamba-Transformer 融合技术,以降低模型 Transformer 架构的计算复杂度和 KV-Cache。最终的模型是一个混合体,可以使用擅长处理长序列的 Mamba 深度学习架构,同时保持 Transformer 理解数据中复杂思想和陈述背景的能力。
腾讯在公告中表示:"这也是业界首次成功将 Mamba 架构应用于超大规模混合专家模型而不造成性能损失。"
混合专家技术是一种机器学习方法,其中多个 AI 模型根据不同的专业领域被分开,并协同工作以解决问题。
该公司还表示,新架构显著降低了训练和部署成本。随着 DeepSeek 等竞争对手以低价推出具有竞争力的模型,这促使腾讯和其他公司降低服务价格,并研究更高效的 AI 训练和推理方法。
好文章,需要你的鼓励
随着数字化时代的到来,网络安全威胁呈指数级增长。勒索软件、AI驱动的网络攻击和物联网设备漏洞成为主要威胁。企业需要建立全面的风险管理策略,包括风险评估、安全措施实施和持续监控。新兴技术如人工智能、区块链和量子计算为网络安全带来新机遇。组织应重视员工培训、供应链安全、数据治理和事件响应能力建设。
滑铁卢大学研究团队开发出ScholarCopilot,一个革命性的AI学术写作助手。该系统突破传统"先检索后生成"模式,实现写作过程中的动态文献检索和精确引用。基于50万篇arXiv论文训练,引用准确率达40.1%,大幅超越现有方法。在人类专家评估中,引用质量获100%好评,整体表现优于ChatGPT。这项创新为AI辅助学术写作开辟新道路。
AWS Amazon Bedrock负责人Atul Deo正致力于让人工智能软件变得更便宜和更智能。他在12月re:Invent大会前只有六个月时间来证明这一目标的可行性。Deo表示AI领域发展速度前所未有,模型每几周就会改进,但客户只有在经济效益合理时才会部署。为此,AWS推出了提示缓存、智能路由、批处理模式等功能来降低推理成本,同时开发能执行多步骤任务的自主代理软件,将AI应用从聊天机器人转向实际业务流程自动化。
哥伦比亚大学研究团队发布NodeRAG技术,通过异构图结构革新智能问答系统。该方法将文档信息分解为7种节点类型,采用双重搜索机制,在多个权威测试中准确率达89.5%,检索效率提升50%以上,为智能信息检索技术带来重大突破。