OpenAI今日推出了新的人工智能模型GPT-5-Codex,该公司表示这款模型能够在无需用户协助的情况下完成长达数小时的编程任务。
该算法是GPT-5的改进版本,在额外的编程数据上进行了训练。用户可以通过Codex访问该模型,Codex是付费ChatGPT计划中包含的AI编程工具。
OpenAI表示,GPT-5-Codex在处理复杂、耗时的编程任务方面比其前身表现更优。"在测试期间,我们看到GPT-5-Codex能够独立工作超过7小时,"OpenAI工作人员在今天的博客文章中详细说明。GPT-5-Codex能够发现在长时间编程会话中犯的错误并自动修复。
据OpenAI介绍,该模型处理耗时任务的能力使其在重构方面特别有用。重构是指改变应用程序代码库的过程,目的不是添加功能,而是提高代码质量。例如,开发人员可能希望减少代码片段的内存使用或提升响应时间。
OpenAI使用内部开发的重构基准测试评估了GPT-5-Codex的能力。该模型得分为51.3%,比GPT高出17%以上。
GPT-5-Codex可以根据任务难度调整处理时间。因此,该模型处理简单请求的速度明显快于GPT-5。"这意味着在处理小型、定义明确的请求或与其聊天时,Codex会感觉更加敏捷,"OpenAI工作人员写道。
ChatGPT开发商让员工向GPT-5-Codex发送编程请求,并根据模型生成的Token计数(硬件使用量的衡量标准)对这些请求进行排名。据OpenAI称,最简单的10%请求使用的Token比GPT-5减少了93.7%。相比之下,最复杂的编程提示会导致GPT-5-Codex花费比GPT-5更多的时间进行推理。
OpenAI表示该模型还带来了可用性改进。如果开发人员希望GPT-5生成遵循特定风格或最佳实践的代码,他们通常必须输入详细的自然语言指令。GPT-5-Codex减少了对指导的需求。
Codex是访问该模型的AI编程工具,此前有两个版本。一个嵌入在ChatGPT中,另一个是命令行工具。结合GPT-5-Codex的发布,OpenAI正在推出第三个版本,开发人员可以直接将其集成到代码编辑器中。
新的Codex版本通常比其他两个版本需要更短的提示。据OpenAI称,原因是它不仅可以访问提示的内容,还可以访问开发人员代码编辑器中打开的文件。同时,Codex的命令行版本现在允许开发人员上传解释性图像,如用户界面草图。
GPT-5-Codex现已通过ChatGPT的Plus、Pro、Business、Edu和Enterprise计划中的Codex立即可用。OpenAI计划在不久的将来将该模型添加到其应用程序编程接口中。
Q&A
Q1:GPT-5-Codex有什么特别的能力?
A:GPT-5-Codex能够在无需用户协助的情况下独立工作超过7小时,完成复杂、耗时的编程任务。它还能发现在长时间编程会话中犯的错误并自动修复,特别适用于代码重构工作。
Q2:GPT-5-Codex比GPT-5有哪些改进?
A:GPT-5-Codex在重构基准测试中得分51.3%,比GPT高出17%以上。它能根据任务难度调整处理时间,处理简单请求比GPT-5快93.7%,同时减少了对详细自然语言指令的需求。
Q3:如何使用GPT-5-Codex?
A:GPT-5-Codex可通过ChatGPT的Plus、Pro、Business、Edu和Enterprise计划中的Codex工具访问。现在有三个版本:嵌入ChatGPT的版本、命令行工具版本,以及可直接集成到代码编辑器的新版本。
好文章,需要你的鼓励
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
阿里达摩院联合浙江大学推出VideoRefer套件,这是首个能够精确理解视频中特定物体的AI系统。该系统不仅能识别整体场景,更能针对用户指定的任何物体进行详细分析和跨时间追踪。研究团队构建了包含70万样本的高质量数据集VideoRefer-700K,并设计了全面的评估体系VideoRefer-Bench。实验显示该技术在专业视频理解任务中显著超越现有方法,在安防监控、自动驾驶、视频编辑等领域具有广阔应用前景。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
Sa2VA是由UC默塞德等高校联合开发的突破性AI系统,首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力,Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集,显著提升了AI在长文本描述和复杂场景下的表现。实验显示,Sa2VA在多个基准测试中达到业界领先水平,为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。