Deep Cogito发布四款开源混合推理大语言模型，具备自我改进"直觉"能力

旧金山AI研究初创公司Deep Cogito发布四款新的大语言模型，参数规模从700亿到6710亿不等。这些模型采用混合推理系统设计，能够学习更有效的推理方式并自我改进。通过迭代蒸馏放大技术，模型将推理过程内化到训练中，发展出"机器直觉"，使用比同类模型短60%的推理链条就能达到相似性能。模型在数学、法律推理和多跳问题等任务中表现出色，训练成本仅350万美元。

位于旧金山的AI研究初创公司Deep Cogito由前谷歌员工创立，近日发布了四款新的开源大语言模型，这些模型在一个关键方面与众不同：它们能够学会如何更有效地推理，并且能够自主改进。

这四款模型属于Cogito v2系列，参数规模从700亿到6710亿不等，面向AI开发者和企业用户开放使用。具体包括：

- Cogito v2-70B（密集型）

- Cogito v2-109B（专家混合型）

- Cogito v2-405B（密集型）

- Cogito v2-671B（专家混合型）

密集型模型在每次前向传播中激活所有参数，更适合低延迟应用和GPU容量有限的环境。专家混合型（MoE）模型采用稀疏路由机制，每次只激活少数专业化的"专家"子网络，在不成比例增加计算成本的情况下实现更大的模型规模。

所有四款Cogito v2模型都设计为混合推理系统：它们既可以立即响应查询，也可以在需要时进行内部反思后再回答。关键在于，这种反思不仅仅是运行时行为，而是融合到训练过程本身中。

这些模型被训练来内化自己的推理过程。这意味着它们得出答案的路径——可以说是思维步骤——被提炼回模型的权重中。随着时间推移，它们学会识别哪些思路真正重要，哪些不重要。

Deep Cogito的CEO兼联合创始人Drishan Arora此前是谷歌的首席大语言模型工程师，他将公司的长期目标描述为构建能够推理并在每次迭代中改进的模型，类似于AlphaGo通过自我对弈完善策略的方式。

在推理任务中，旗舰版671B MoE模型超越了DeepSeek R1，在使用60%更短推理链的情况下达到或超过其最新0528模型的性能。在MMLU、GSM8K和MGSM等基准测试中，Cogito 671B MoE的表现与Qwen1.5-72B和DeepSeek v3等顶级开源模型相当，接近Claude 4 Opus和o3等闭源模型的性能水平。

尽管模型规模庞大，Deep Cogito声称其训练所有八个Cogito模型（包括较小的v1检查点）的总成本不到350万美元，相比之下，据报道OpenAI一些领先模型的成本超过1亿美元。

这些模型现已在Hugging Face上提供下载，企业用户可通过Together AI、Baseten和RunPod的API接口使用。对于开发者、研究人员和企业团队来说，这些模型提供了一种不同的构建智能的方法：不是更努力地思考，而是学习如何更好地思考。

Q&A

Q1：Deep Cogito的混合推理模型有什么特别之处？

A：Deep Cogito的模型具备自我改进的"直觉"能力，它们将推理过程融合到训练中，能够学会哪些思路重要哪些不重要，从而实现更快、更高效的推理，即使在标准模式下也能提升性能。

Q2：Cogito v2模型的性能表现如何？

A：旗舰版671B MoE模型在推理任务中超越DeepSeek R1，使用60%更短的推理链达到相同性能。在MMLU、GSM8K等基准测试中表现与顶级开源模型相当，接近闭源模型性能水平。

Q3：如何使用这些Cogito v2模型？

A：开发者可以在Hugging Face上下载这些模型，通过Unsloth进行本地使用，或者通过Together AI、Baseten和RunPod的API接口使用。模型支持立即响应和内部反思两种模式。

来源：VentureBeat

0赞

好文章，需要你的鼓励

Deep Cogito发布四款开源混合推理大语言模型，具备自我改进"直觉"能力

来源：VentureBeat

2025

08/04

08:11

分享

点赞

人工智能是否存在泡沫风险的深度分析

AI系统在压力下学会战略性欺骗的深层原因

数据中心备份电力系统对比分析

Paxos以超1亿美元收购加密钱包初创公司Fordefi

腾讯发布"读图神器"HunyuanOCR，只用1%的参数就打败了行业巨头？

联想天津工厂入选“世界智能制造十大科技进展” 以零碳智造打造业内标杆

联想万全异构智算研发团队入选IEEE CyberSciTech 2025，RNL技术成果获国际认可！

首款搭载千问的AI硬件：夸克AI眼镜新品发布 次日门店现排队潮

ServiceNow或以超10亿美元收购网络安全初创公司Veza

谷歌云推出"PanyaThAI"计划加速泰国AI应用

英国产学合作推进光纤射频通信技术商业化进程

阿里巴巴推出可换电池设计的Quark AI智能眼镜

Google DeepMind发布高精度地球AI模型AlphaEarth

这11种情况下千万别用ChatGPT

ServiceNow瞄准"数据地狱"，布局商业智能领域

Azure AI Speech升级：仅需几秒音频即可生成逼真语音克隆

Canonical重启TPM加密技术，Ubuntu 25.10版本即将支持

IOWN全光网络项目迎来五周年 与ITU签署合作协议

乐天移动选择思科、诺基亚、F5为5G SA网络合作伙伴

Meta投资千兆瓦数据中心打造"超级智能"实验室

光学基础设施为何成为AI未来发展核心

2026年CIO预算规划：核心投资重点与AI转型策略

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

首款搭载千问的AI硬件：夸克AI眼镜新品发布次日门店现排队潮

IOWN全光网络项目迎来五周年与ITU签署合作协议