OpenAI 在周四宣布了 GPT-4.5 的预览版,该公司称这是迄今为止最大和最好的聊天模型。他们承诺这个新版本将在语气、交互和通用知识方面更具人性化特征。
根据 OpenAI 发布的新闻稿,该模型可以带来更温暖、更自然流畅的对话,具备更强的情感智能和更先进的能力,包括识别模式、建立联系和更具创造性思维的能力。
公司详细说明,这个模型能够理解更多细微差别和上下文,更善于协作,并且整体知识储备更为丰富,有效降低了产生幻觉的可能性。
这一消息发布之际,科技公司正在追求开发能够匹敹或超越人类能力的 AI 这一更宏大的目标。虽然 GPT-4.5 是一次进步,但相比于传闻即将发布的、更先进的 GPT-5 模型而言,这可能只是一个渐进式的改进。此次新版本的发布也紧随中国 DeepSeek 以其低成本模型震动生成式 AI 领域,以及 Google 发布 Gemini AI 2.0 版本之后。
OpenAI 持续扩展其各种产品供应。本周早些时候,该公司向所有付费 ChatGPT 用户开放了 Deep Research 工具,并推出了免费版的 Advanced Voice Mode 功能,使用户能够与 ChatGPT 进行实时语音交互。
公司表示,强大的预训练有助于 GPT-4.5 等模型更好地吸收通用知识,理解上下文关系,并学习高层次的推理模式。
OpenAI 在一份声明中表示:"随着 GPT-4.5 等模型通过预训练变得更加智能和知识渊博,它们将为未来的推理和工具使用代理提供更强大的基础。"
该公司表示,模型将在研究预览期间继续训练,预览版将向付费的 ChatGPT Pro 用户和开发者开放。预览阶段的时长将取决于用户反馈。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。