一家名为 Deep Cogito 的新公司近期揭开面纱,推出了一系列可以在"推理"和非推理模式之间切换的开放 AI 模型。
像 OpenAI 的 o1 这样的推理模型在数学和物理等领域展现出巨大潜力,这要归功于它们能够通过逐步解决复杂问题来进行自我验证的能力。然而,这种推理能力是有代价的:更高的计算成本和延迟。这就是为什么像 Anthropic 这样的实验室正在追求"混合"模型架构,将推理组件与标准的非推理元素相结合。混合模型可以快速回答简单问题,同时在处理更具挑战性的问题时投入更多时间思考。
Deep Cogito 的所有模型(称为 Cogito 1)都是混合模型。该公司声称,这些模型的性能优于同等规模的最佳开放模型,包括来自 Meta 和中国 AI 初创公司 DeepSeek 的模型。
该公司在博客文章中解释道:"每个模型都可以直接回答问题,或在回答前进行自我反思(类似推理模型)。所有这些都是由一个小团队在大约 75 天内开发完成的。"
Cogito 1 模型的参数规模从 30 亿到 700 亿不等,该公司表示,在未来几周和几个月内,将会推出参数规模达到 6710 亿的模型。参数数量大致对应于模型的问题解决能力,通常参数越多越好。
需要说明的是,Cogito 1 并非从零开始开发。Deep Cogito 是在 Meta 的开源 Llama 和阿里巴巴的 Qwen 模型基础上构建的。该公司表示,他们应用了新颖的训练方法来提升基础模型的性能,并实现可切换的推理能力。
根据 Cogito 的内部基准测试结果,最大的 Cogito 1 模型——启用推理功能的 Cogito 70B,在某些数学和语言评估中的表现优于 DeepSeek 的 R1 推理模型。在禁用推理功能的情况下,Cogito 70B 在通用 AI 测试 LiveBench 上的表现也超过了 Meta 最近发布的 Llama 4 Scout 模型。
所有 Cogito 1 模型都可以通过 Fireworks AI 和 Together AI 这两家云服务提供商的 API 下载或使用。
"目前,我们仍处于扩展曲线的早期阶段,仅使用了传统大语言模型后期/持续训练所需计算资源的一小部分,"Cogito 在其博客文章中写道。"展望未来,我们正在研究互补的后期训练方法来实现自我提升。"
根据加利福尼亚州的文件显示,总部位于旧金山的 Deep Cogito 成立于 2024 年 6 月。该公司的 LinkedIn 页面列出了两位联合创始人:Drishan Arora 和 Dhruv Malhotra。Malhotra 此前是 Google AI 实验室 DeepMind 的产品经理,负责生成式搜索技术。Arora 曾是 Google 的高级软件工程师。
根据 PitchBook 的信息,Deep Cogito 的投资方包括 South Park Commons,该公司雄心勃勃地致力于构建"通用超级智能"。公司创始人将这个术语理解为能够比大多数人更好地完成任务,并"发现我们尚未想象到的全新能力"的 AI。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。