对于关注新模型发布的技术爱好者来说,今天简直就是八月的圣诞节。OpenAI、Anthropic和Google这三大巨头同时发布了全新的大语言模型版本,为我们带来了一份丰厚的技术大礼。
OpenAI开源模型
首先,技术社区迎来了OpenAI OSS 120b和OSS 20b,这是该公司自ChatGPT 2以来首批开放权重系统。需要注意的是,尽管这些模型采用Apache许可证,但并非传统意义上的完全开源——权重开源,但训练数据不开源。
据报告显示,较大的OSS模型在单个80GB GPU芯片驱动下,在推理能力方面与o4-mini模型"达到同等水平"。较小的模型则可以在智能手机和其他边缘设备上运行。这些模型采用MXFP4量化技术,这是一种用于加速矩阵乘法的低精度数据类型。
让模型自由思考
新OSS模型的另一个有趣方面与思维链相关,这项技术彻底改变了推理过程,同时也引发了关于比较方法论的问题。
基本上,我们希望大语言模型准确,但工程师发现,在许多情况下,限制或过度指导系统会导致它们"隐藏"思维链。因此,OpenAI选择不以这种方式优化模型。
根据OpenAI的模型卡报告:"在我们最近的研究中,我们发现监控推理模型的思维链有助于检测不当行为。我们进一步发现,如果直接对思维链施加压力以避免'不良想法',模型可能学会隐藏其思维过程,同时仍然存在不当行为...基于这些担忧,我们决定不对两个开放权重模型的思维链施加任何直接的优化压力。"
因此,为了透明度,模型被允许产生这些"不良想法"。OpenAI诚实地承认了更高的幻觉风险,让用户知道已经做出了这种权衡。
Claude Opus 4.1
8月5日,发言人这样宣布了这款新模型:"今天我们发布Claude Opus 4.1,这是Claude Opus 4在智能体任务、实际编程和推理方面的升级版本。我们计划在未来几周内发布更大幅度的模型改进。Opus 4.1现已向付费Claude用户开放,并在Claude Code中提供。它也可通过我们的API、Amazon Bedrock和Google Cloud的Vertex AI获得。定价与Opus 4相同。"
新的Opus 4.1模型提升了SWE-Bench Verified分数,并增强了智能体研究技能。能力分析显示,与Opus 4相比,基于SWE的智能体编程提升了2个百分点(72.5% - 74.5%),GPQA Diamond研究生级推理能力有所改进(79.6% - 80.9%),视觉推理和智能体工具使用也有轻微提升。
据行业数据显示,Anthropic实现了惊人的增长,年度经常性收入在短短七个月内从10亿美元跃升至50亿美元,增长了五倍。然而,该公司的快速崛起也带来了危险的依赖性:其31亿美元API收入中近一半来自仅两个客户——编程助手Cursor和微软的GitHub Copilot,合计产生14亿美元收入。
Genie 3
这是Google DeepMind实验室推出的最新Genie系列模型,专门创建受控环境。换句话说,这是一个游戏世界模型。
新模型的支持者称其具有比Genie 2约10秒限制更长的长期记忆,以及更好的视觉保真度和实时响应能力。
DeepMind声称,新系统可以生成完整的世界,用户可以在高达720p分辨率下持续交互数分钟。此外,该公司表示系统能够以实时延迟响应所谓的"可提示世界事件"。
DeepMind的Shlomi Fruchter在新闻声明中表示:"Genie 3是首个实时交互式通用世界模型。它超越了之前存在的狭义世界模型。它不特定于任何特定环境。它可以生成逼真的和想象的世界,以及介于两者之间的一切。"实验室认为Genie 3是"通向AGI的垫脚石",这在这个有趣的时代是一个重大声明。
所有这些新模型今天都迎来了第一批公众用户!这足以让人头晕目眩,特别是如果你负责任何形式的实施工作。你会选择什么?公平地说,确实涉及一定程度的专业化。但大多数最接近行业的专业人士会告诉你,创新的速度是具有挑战性的:根据大多数公司的记录,当你将某些东西融入业务运营时,它很可能已经过时了!
Q&A
Q1:OpenAI OSS模型与传统开源模型有什么区别?
A:OpenAI OSS模型虽然采用Apache许可证,但并非完全开源。它们是"部分开源"——模型权重开源,但训练数据不开源。这与传统的完全开源模型不同,后者通常包括完整的代码、数据和权重。
Q2:Claude Opus 4.1相比前一版本有哪些具体改进?
A:Claude Opus 4.1在多个方面都有提升:基于SWE的智能体编程能力从72.5%提升到74.5%,GPQA Diamond研究生级推理能力从79.6%提升到80.9%,视觉推理和智能体工具使用也有轻微改善。定价保持与Opus 4相同。
Q3:Google Genie 3模型主要用于什么场景?
A:Genie 3是一个游戏世界模型,专门用于创建受控的交互环境。它可以生成完整的世界供用户交互,支持高达720p分辨率,交互时间可达数分钟,并能实时响应"可提示世界事件"。DeepMind将其定位为通向AGI的垫脚石。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。