全球人工智能领域的快速发展引发了一场技术竞赛,科技巨头们纷纷投下巨额资金以争夺技术领先地位。然而,随着行业的不断发展与外部变量的加速作用,一些令人意想不到的技术跃迁正逐渐浮现。国内开源AI模型供应商DeepSeek发布的V3版本,引发了业界和资本市场的强烈震动。它以极低成本复制并优化了现有最先进模型,令国外行业巨头们重新思考了未来发展模式、不确定性预估乃至整体战略规划。
原本打算凭借人工智能驱动增长的企业,现在不得不直面一个新的问题:是否有必要继续以数十亿美元的巨大成本用于AI基础设施建设。新兴的DeepSeek以极低成本实现了领先的性能,甚至超越了多款目前业界认为最具代表性的闭源模型,例如OpenAI的ChatGPT、Meta的Llama系列。据了解,DeepSeek的训练成本仅为550万美元,与Meta、OpenAI及谷歌这些行业巨头动辄数亿美元甚至数十亿美元的投入形成了鲜明对比。在过去,巨头公司争先恐后地投资尖端GPU设备、高密度算力集群,以及复杂的算法体系,以求在模型拓展上占据第一的位置。DeepSeek的逆袭却表明,任何一家技术团队只需要得当利用现有资源,便可以在有限预算下做出创新奇迹。
近年来,巨额投入换来的仅仅是模型大小的“加法”,而非“质变”的突破。AI技术开始从以研究驱动为导向的模式,向低成本、高效率的商品化方向转变。DeepSeek以显著的经济效益,高效利用已有模型和简化硬件,完成了和科技巨头产品几乎相同的技术目标。然而,DeepSeek的更大意义在于,作为一个开源项目,它再次点燃了开源与闭源的争论。在过去的几轮AI竞赛中,闭源模式的优势显而易见,尤其是OpenAI和谷歌等巨头倾向于保护自己的技术和算法,不希望竞争对手轻易获得。但开源模式则展现了共享知识和降低创新壁垒的巨大潜力。Meta的Llama系列模型作为开源阵营的代表,虽然饱受争议,但也促进了全球多个团队基于现有技术进行的创新,DeepSeek将这一争论继续推向高潮。
在与DeepSeek模型的对话测试中,这款模型表示自己是根据OpenAI技术架构设计的。美方研究人员已经认定,DeepSeek的训练可能依赖于ChatGPT的输出信息,以弥补数据和算力上的不足。美国对中国技术发展的战略防范还在加剧,尤其是在AI等高科技领域。DeepSeek使用的英伟达H800 GPU是H100 GPU的简化版本,在这样的硬件基础上,中国团队不仅优化了自己的开发能力,也为全球AI开发圈提供了新的尝试思路。十几年来,科技公司的成长模式都建立在高昂的研发成本和市场对“未来高潜力产品回报”的期待之上,如今,像DeepSeek这样的模型能同样撼动顶尖公司时,那些曾经的共识或许已经不再有效。
在未来数月乃至数年内,类似DeepSeek的产品将进一步得到优化和传播。这不仅是一场商业技术的博弈,也是一场关于成本、效率和创新理念的全方位较量。而对于全球AI产业而言,这可能只是故事的开端,一个充满变数与潜力的新阶段已经到来。
好文章,需要你的鼓励
法国AI初创公司Mistral AI发布了首个大语言模型全面生命周期评估,量化了AI的环境代价。其Mistral Large 2模型训练产生20,400吨二氧化碳当量,消耗281,000立方米水。运营阶段占环境影响85%,远超硬件制造成本。研究表明地理位置和模型大小显著影响碳足迹,企业可通过选择适当规模模型、批处理技术和清洁能源部署来减少环境影响。这一透明度为企业AI采购决策提供了新的评估标准。
上海AI实验库推出YUME系统,用户只需输入一张图片就能创建可键盘控制的虚拟世界。该系统采用创新的运动量化技术,将复杂的三维控制简化为WASD键操作,并通过智能记忆机制实现无限长度的世界探索。系统具备强大的跨风格适应能力,不仅能处理真实场景,还能重现动漫、游戏等各种艺术风格的虚拟世界,为虚拟现实和交互娱乐领域提供了全新的技术路径。
许多人认为一旦实现通用人工智能(AGI)和人工智能超级智能(ASI),这些高度先进的AI将能够告诉我们人生的真正意义。然而,巅峰AI可能无法明确回答这个史诗般的问题。即使AI拥有人类所有知识,也不意味着能从中找到生命意义的答案。AI可能会选择提供多种可能性而非绝对答案,以避免分裂人类社会。
上海AI实验室研究团队开发了革命性的AI编程验证方法,让大语言模型能够在最小人工干预下自动生成和验证程序规范。该方法摒弃传统的人工标注训练,采用强化学习让模型在形式化语言空间中自主探索,在Dafny编程验证任务上显著超越现有方法,为AI自主学习开辟新道路。