一家名为 Deep Cogito 的新公司近期揭开面纱,推出了一系列可以在"推理"和非推理模式之间切换的开放 AI 模型。
像 OpenAI 的 o1 这样的推理模型在数学和物理等领域展现出巨大潜力,这要归功于它们能够通过逐步解决复杂问题来进行自我验证的能力。然而,这种推理能力是有代价的:更高的计算成本和延迟。这就是为什么像 Anthropic 这样的实验室正在追求"混合"模型架构,将推理组件与标准的非推理元素相结合。混合模型可以快速回答简单问题,同时在处理更具挑战性的问题时投入更多时间思考。
Deep Cogito 的所有模型(称为 Cogito 1)都是混合模型。该公司声称,这些模型的性能优于同等规模的最佳开放模型,包括来自 Meta 和中国 AI 初创公司 DeepSeek 的模型。
该公司在博客文章中解释道:"每个模型都可以直接回答问题,或在回答前进行自我反思(类似推理模型)。所有这些都是由一个小团队在大约 75 天内开发完成的。"
Cogito 1 模型的参数规模从 30 亿到 700 亿不等,该公司表示,在未来几周和几个月内,将会推出参数规模达到 6710 亿的模型。参数数量大致对应于模型的问题解决能力,通常参数越多越好。
需要说明的是,Cogito 1 并非从零开始开发。Deep Cogito 是在 Meta 的开源 Llama 和阿里巴巴的 Qwen 模型基础上构建的。该公司表示,他们应用了新颖的训练方法来提升基础模型的性能,并实现可切换的推理能力。
根据 Cogito 的内部基准测试结果,最大的 Cogito 1 模型——启用推理功能的 Cogito 70B,在某些数学和语言评估中的表现优于 DeepSeek 的 R1 推理模型。在禁用推理功能的情况下,Cogito 70B 在通用 AI 测试 LiveBench 上的表现也超过了 Meta 最近发布的 Llama 4 Scout 模型。
所有 Cogito 1 模型都可以通过 Fireworks AI 和 Together AI 这两家云服务提供商的 API 下载或使用。
"目前,我们仍处于扩展曲线的早期阶段,仅使用了传统大语言模型后期/持续训练所需计算资源的一小部分,"Cogito 在其博客文章中写道。"展望未来,我们正在研究互补的后期训练方法来实现自我提升。"
根据加利福尼亚州的文件显示,总部位于旧金山的 Deep Cogito 成立于 2024 年 6 月。该公司的 LinkedIn 页面列出了两位联合创始人:Drishan Arora 和 Dhruv Malhotra。Malhotra 此前是 Google AI 实验室 DeepMind 的产品经理,负责生成式搜索技术。Arora 曾是 Google 的高级软件工程师。
根据 PitchBook 的信息,Deep Cogito 的投资方包括 South Park Commons,该公司雄心勃勃地致力于构建"通用超级智能"。公司创始人将这个术语理解为能够比大多数人更好地完成任务,并"发现我们尚未想象到的全新能力"的 AI。
好文章,需要你的鼓励
从ADHD意识游戏到疫苗教育游戏,目的驱动的游戏正在重塑全球公共健康沟通。研究表明,这些游戏不仅能提高参与度和知识保留率,还能带来更持久的行为改变。专家认为,结合AI聊天机器人的游戏化健康工具有望进一步提高效率,为全球健康挑战提供创新解决方案。
Google 推出了新一代应用开发平台 Firebase Studio,利用生成式 AI 技术,让用户能在浏览器中快速创建自定义应用。该平台集成了 Google 的多项开发工具,支持多种编程语言和框架,提供各类预置模板和 AI 辅助功能,大大简化了应用开发流程。目前该平台已开放预览版供所有 Google 账户用户使用。
随着人工智能的发展,企业面临着前所未有的安全挑战。40%以上的企业欺诈现在由AI驱动,能够模仿真实用户行为、绕过传统防御系统,并以压倒性的速度进行攻击。2024年,近90%的企业遭受攻击,半数损失超过1000万美元。为应对这一威胁,安全团队需要采用全新的思维方式和技术手段,实时评估每个用户的风险,构建更加智能和动态的防御体系。
Google 推出统一安全平台 GUS,整合多项安全产品和服务,包括威胁情报、安全运营、云安全等。该平台由 Gemini AI 驱动,旨在为企业提供全面的安全数据层面,简化安全管理流程,提高威胁检测和响应效率。Google 期望通过这一平台解决企业安全领导者面临的碎片化安全解决方案问题,为用户提供更好的安全成果。