AI,开始深度思考了
当我抛给他一个测试目前AI能力的经典问题:
9.11和9.9谁大?
丢给平时常用的大模型回答:
Kimi
Claude 3.5 Sonnet
ChatGLM
回答迅速,但都是错的
而这是GPT o1-preview的回答
有种我在期末数学考试里最后一道大题绞尽脑汁,结果响铃了要交卷时瞎meng了个错误答案,而隔壁的学霸却是游刃有余,写了多种解题方法还有空检查的感觉。
而这个会思考的AI模型,就是今天OpenAI刚发布的 GPT o1
的“抢先版”,GPT o1-preview
对,还只是个阉割版。
但是水平已经吊打目前市面上的最强模型GPT4o了。
水平如何?
我们可以看到,除了数学和代码方面o1模型“遥遥领先”,在最后的博士级科学问题测试中,o1的78分表现超过了人类博士专家的69.7分,也是世界上第一个在此基准上做到这一点的模型。
另外在启用视觉感知增强功能后,o1增强版模型在理化生这些大类科学中的得分也媲美该领域的博士专家,尤其是物理学领域可以说是碾压。
话说咱的老本行就是物理学,
难不成这是在暗示...以后不用读博了?
不过官方也细心的提醒:这些结果并不意味着 o1 在各方面都比博士更有能力——只是意味着该模型在解决一些博士需要解决的问题方面更熟练。
为什么强?
而要细说o1系列模型能力出众的原因,OpenAI官方也给予了解释:
o1系列模型是通过强化学习训练的新型大型语言模型,可以进行复杂的推理。在回答之前会思考,并且可以在响应用户之前生成内部思维链。
通俗点来说就是:“三思而后行”
“思维链”这个过程可以比作是给 AI 一个"思考框架",让它能够像人类专家那样,分步骤、有逻辑地分析问题,而不是简单地给出直接答案。
我找了个解释性的图帮大家更好地理解,多个专家智能体负责不同业务,专注于思考过程的不同方面,比如验证、知识运用、同理心等,以此来提高 AI 输出的质量和可靠性。
类似我们不同领域的专家组成小组,深度思考、头脑风暴、反复验证后再给出答案。
虽然之前的AutoGPT和其他团队也有过类似的尝试,不过效果貌似达不到这么好。
按照OpenAI的尿性,估计是有什么秘而不宣的方法吧,也欢迎业内技术大佬分享。
贵吗?
官方先放了两个版本的o1让大家玩玩,早鸟版和低配版。
o1-preview:旨在解决跨领域难题的推理模型。
o1-mini:更快、更便宜的推理模型,特别擅长编码、数学和科学。
订阅了Plus和Team的用户立马可以用上,免费用户还得等等
不过因为“思考成本过高”,o1-preview 限制网页和移动端的使用次数是 30 条/周 ,o1-mini是 50 条/周,T5 级别的开发者可以访问其 API,每分钟最多20并发。除此之外还有不少限制。
o1-preview目前的API价格是每百万Token输入/输出分别是15美金和60美金,是gpt-4o价格的4倍。
可以理解,毕竟咱和巴菲特吃顿午餐还要1900万美金..
既然o1这么强,
能用来做啥?
可能很多朋友已经用上了,在群里也看到了不少测评,发现o1没有预期的好,甚至有些还不如gpt-4o,
又慢又不好用
一个业内的朋友如是说道,
那这种深度思考的推理又可以用来做什么?
其他还有很多,这里就不一一列举了。
而这种深度的思考推理,正是AGI的起点
我们可以大胆地展开想象,不久的将来,借助借助o1或者o2、o3的力量去探索物理定律的奥秘,揭示材料深层的秘密,解开基因的密码,研发治疗癌症的药物,以及深入太空和宇宙的探索,去触及人类认知的边界...
回到 OpenAI 给这代模型起名叫 o1 的初衷:
For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.
“在处理复杂推理任务方面,这标志着人工智能技术的一次重要进步,展现出了前所未有的能力水平。
因此,我们重置了计数器,使之回归原点,再次从一伊始,并将这一系列产品命名为OpenAI o1,以此纪念这一技术的新篇章。”
现在,AI不仅仅是一个聊天机器人
它更是我们探索未来的眼
最后,期待和大家一起在群里交流探索o1的更多应用场景。如果你觉得这篇文章有帮助,记得点赞、收藏、分享给朋友们哦!咱们下次见啦!
好文章,需要你的鼓励
Xbox 部门推出了名为 Muse 的生成式 AI 模型,旨在为游戏创造视觉效果和玩法。这一举措反映了微软全面拥抱 AI 技术的战略,尽管游戏开发者对 AI 持谨慎态度。Muse 不仅可能提高游戏开发效率,还有望实现老游戏的现代化改造,但其实际效果和对行业的影响仍有待观察。
Sonar收购AutoCodeRover,旨在通过自主AI代理增强其代码质量工具。这项收购将使Sonar客户能够自动化调试和问题修复等任务,让开发者将更多时间用于改进应用程序而非修复bug。AutoCodeRover的AI代理能够自主修复有问题的代码,将与Sonar的工具集成,提高开发效率并降低成本。
人工智能正在推动数据中心的变革。为满足 AI workload 的需求,数据中心面临前所未有的电力消耗增长、散热压力和设备重量挑战。应对这些挑战需要创新的解决方案,包括 AI 专用硬件、可再生能源、液冷技术等。同时,数据中心还需平衡监管压力和社区关切。未来数据中心的发展将决定 AI 技术能否实现其变革性潜力。