AI,开始深度思考了
当我抛给他一个测试目前AI能力的经典问题:
9.11和9.9谁大?
丢给平时常用的大模型回答:
Kimi
Claude 3.5 Sonnet
ChatGLM
回答迅速,但都是错的
而这是GPT o1-preview的回答
有种我在期末数学考试里最后一道大题绞尽脑汁,结果响铃了要交卷时瞎meng了个错误答案,而隔壁的学霸却是游刃有余,写了多种解题方法还有空检查的感觉。
而这个会思考的AI模型,就是今天OpenAI刚发布的 GPT o1
的“抢先版”,GPT o1-preview
对,还只是个阉割版。
但是水平已经吊打目前市面上的最强模型GPT4o了。
水平如何?
我们可以看到,除了数学和代码方面o1模型“遥遥领先”,在最后的博士级科学问题测试中,o1的78分表现超过了人类博士专家的69.7分,也是世界上第一个在此基准上做到这一点的模型。
另外在启用视觉感知增强功能后,o1增强版模型在理化生这些大类科学中的得分也媲美该领域的博士专家,尤其是物理学领域可以说是碾压。
话说咱的老本行就是物理学,
难不成这是在暗示...以后不用读博了?
不过官方也细心的提醒:这些结果并不意味着 o1 在各方面都比博士更有能力——只是意味着该模型在解决一些博士需要解决的问题方面更熟练。
为什么强?
而要细说o1系列模型能力出众的原因,OpenAI官方也给予了解释:
o1系列模型是通过强化学习训练的新型大型语言模型,可以进行复杂的推理。在回答之前会思考,并且可以在响应用户之前生成内部思维链。
通俗点来说就是:“三思而后行”
“思维链”这个过程可以比作是给 AI 一个"思考框架",让它能够像人类专家那样,分步骤、有逻辑地分析问题,而不是简单地给出直接答案。
我找了个解释性的图帮大家更好地理解,多个专家智能体负责不同业务,专注于思考过程的不同方面,比如验证、知识运用、同理心等,以此来提高 AI 输出的质量和可靠性。
类似我们不同领域的专家组成小组,深度思考、头脑风暴、反复验证后再给出答案。
虽然之前的AutoGPT和其他团队也有过类似的尝试,不过效果貌似达不到这么好。
按照OpenAI的尿性,估计是有什么秘而不宣的方法吧,也欢迎业内技术大佬分享。
贵吗?
官方先放了两个版本的o1让大家玩玩,早鸟版和低配版。
o1-preview:旨在解决跨领域难题的推理模型。
o1-mini:更快、更便宜的推理模型,特别擅长编码、数学和科学。
订阅了Plus和Team的用户立马可以用上,免费用户还得等等
不过因为“思考成本过高”,o1-preview 限制网页和移动端的使用次数是 30 条/周 ,o1-mini是 50 条/周,T5 级别的开发者可以访问其 API,每分钟最多20并发。除此之外还有不少限制。
o1-preview目前的API价格是每百万Token输入/输出分别是15美金和60美金,是gpt-4o价格的4倍。
可以理解,毕竟咱和巴菲特吃顿午餐还要1900万美金..
既然o1这么强,
能用来做啥?
可能很多朋友已经用上了,在群里也看到了不少测评,发现o1没有预期的好,甚至有些还不如gpt-4o,
又慢又不好用
一个业内的朋友如是说道,
那这种深度思考的推理又可以用来做什么?
其他还有很多,这里就不一一列举了。
而这种深度的思考推理,正是AGI的起点
我们可以大胆地展开想象,不久的将来,借助借助o1或者o2、o3的力量去探索物理定律的奥秘,揭示材料深层的秘密,解开基因的密码,研发治疗癌症的药物,以及深入太空和宇宙的探索,去触及人类认知的边界...
回到 OpenAI 给这代模型起名叫 o1 的初衷:
For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.
“在处理复杂推理任务方面,这标志着人工智能技术的一次重要进步,展现出了前所未有的能力水平。
因此,我们重置了计数器,使之回归原点,再次从一伊始,并将这一系列产品命名为OpenAI o1,以此纪念这一技术的新篇章。”
现在,AI不仅仅是一个聊天机器人
它更是我们探索未来的眼
最后,期待和大家一起在群里交流探索o1的更多应用场景。如果你觉得这篇文章有帮助,记得点赞、收藏、分享给朋友们哦!咱们下次见啦!
好文章,需要你的鼓励
软件开发瓶颈是现代企业面临的关键挑战。本文探讨了消除瓶颈的有效策略,包括优化沟通、提高可视化、自动化流程和培养共同责任文化。专家建议通过异步更新、看板管理和自动化工具来提高效率。同时强调了数据质量、跨团队协作和持续改进的重要性。文章还提到了新兴技术如AI在解决瓶颈问题中的潜在应用。
随着人工智能技术的发展,深度伪造内容在网络上大量涌现,可能对我们的健康造成潜在威胁。从虚假名人代言到有害的AI生成医疗建议,深度伪造正在助长一波危险的虚假信息浪潮。本文探讨了深度伪造在医疗保健领域的负面影响,以及如何在这个充满虚假信息的时代保护自己的健康。
INCYMO.AI 推出了一个革新性的 AI 驱动创意平台,专注于移动游戏广告制作。该平台基于 10 万多个市场验证广告的数据分析,通过 AI 技术为游戏营销人员提供创意构思和广告生成服务。在创意疲劳、用户获取成本上升和隐私限制的当前环境下,该平台为游戏营销开辟了一条数据驱动的全新道路。
Databricks 与 Palantir 签署合作协议,开发出更优的大语言模型微调方法,并与 Anthropic 达成为期五年的战略联盟,将 Claude 大语言模型整合到其数据湖平台中。此次合作将为企业客户提供更强大的 AI 能力,包括军工级安全性、高效的模型训练以及全面的数据治理,助力企业打造专属 AI 应用。