成本大降, OpenAI小型模型GPT-4o mini
GPT-4o mini输入价格为15美分/百万Tokens,输出价格为60美分/百万Tokens。而曾被视为OpenAI内部最轻量级且高性价比的GPT-3.5 Turbo,其输入价格为50美分/百万Tokens,输出价格为150美分/百万Tokens。
7月19日消息, OpenAI宣布推出GPT-4o mini模型,并称其为最智能、最实惠的模型,其性能和价格均已赶超GPT-3.5 Turbo。
作为直观对比,GPT-4o mini输入价格为15美分/百万Tokens,输出价格为60美分/百万Tokens。而曾被视为OpenAI内部最轻量级且高性价比的GPT-3.5 Turbo,其输入价格为50美分/百万Tokens,输出价格为150美分/百万Tokens。
最新的“GPT-4o mini”比GPT-4o便宜了96%~97%,比起GPT-3.5 Turbo也要便宜60%~70%。正因如此,随着GPT-4o mini上架,GPT-3.5 Turbo的历史使命到此结束。OpenAI还表示,GPT-4o mini是首个使用其全新安全策略“指令层级”的AI模型。
此前,一些没有足够资金的开发者可能对GPT高昂的价格望而却步,转而选择更便宜的模型,例如谷歌的 Gemini 1.5 Flash 或 Anthropic 的 Claude 3 Haiku来构建应用程序。而现在,OpenAI 也正式进入了轻量级模型的市场。
性能方面,目前GPT-4o Mini支持文本和视觉输入,未来将扩展至音视频。它拥有128K上下文窗口,每次请求最多可输出16K标记,知识库更新至2023年10月。而且由于与GPT-4o共享改进的分词器,使其处理非英语文本的成本效益更高。
根据OpenAI官方介绍,GPT-4o mini在学术测试中表现优异,超越了GPT-3.5 Turbo等小型模型。它在文本智能、多模态推理和语言支持方面水平与GPT-4o相当。在函数调用方面表现突出,有助于开发者创建能与外部系统交互的应用。此外还显著提升了长上下文处理能力,优于GPT-3.5 Turbo。
GPT-4o mini的高性能来源于GPT-4o,这是OpenAI目前最快、最强大的旗舰大模型。OpenAI在5月的一次直播活动中发布了GPT-4o,“o”代表omni(全能的),寓意了该模型对多模态的注重。彼时,团队表示GPT-4o对音频、视频和文本等多模态理解与生成功能进行了改进,能够以更高的速度和质量处理50种不同的语言。
目前,GPT-4o mini API接口已开放,支持文本和视觉,未来还将融入文本、图像、视频和音频的输入和输出。它将于当地时间周四向ChatGPT的免费用户、ChatGPT Plus和团队订阅者开放,ChatGPT企业用户将于下周开放。
0赞好文章,需要你的鼓励
推荐文章
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。