移动互联网时代,谁获得用户和流量,谁就能获得成功。底层逻辑是移动互联网的系统边际成本很低。因此,“通过免费吸引客户,然后再获取收益”,成为了最典型的商业模式。
大模型时代,底层逻辑发生了很大的变化。系统的成本几乎和客户使用量成线性关系,边际成本依然很高。这里的成本绝大部分都是推理的算力消耗。
在大模型时代,谁能把推理成本降到极致,谁就能获得最终的胜利。
在大模型时代,谁能把推理成本降到极致,谁就能获得最终的胜利。
目前对AI智算平台的选择,简单来说,就两个:NVIDIA GPU或其他GPU/AI芯片(NVIDIA之外,统称其他)。
CUDA是NVIDIA GPU的计算框架,通过CUDA,可以将GPU强大的计算能力释放出来。基于NVIDIA GPU的CUDA及其所构成的生态是NVIDIA的护城河。CUDA生态,也是目前智算领域几乎独占的计算生态。
这里讲一个案例,来说明NVIDIA CUDA生态的强大。
目前流行的大模型算法基本上都是基于Transformer结构或其变种,Transformer之所以大行其道的原因,与其说是算法本身的价值,不如说是Transformer能够把GPU强大的并行计算能力充分发挥出来。Transformer具有NVIDIA GPU的亲和性,从而才能脱颖而出。
可以这样说,只有NVIDIA GPU+CUDA亲和的AI算法才有可能走出来;反过来说,如果不是NVIDIA GPU+CUDA亲和的算法,即使算法本身的优势再大,也很难被大规模的使用。
NVIDIA GPU+CUDA生态的强大能力,可见一斑!
智算中心选择NVIDIA平台的最大优势是:兼容性好。目前,主流的大模型算法都是基于NVIDIA GPU和CUDA框架开发的,开源的大模型更是如此。这样,在NVIDIA GPU平台上,开源大模型拿过来,就可以很快跑起来。
NVIDIA GPU还有一个重要的优势是场景覆盖广。不管是做AIGC、AI Agent,或者其他可能的大模型应用,都有丰富的基于NVIDIA GPU和CUDA的开源模型和开源应用等相关资源可供选择。开发者可以快速原型验证,然后在此基础上继续调优。
NVIDIA GPU场景覆盖广,既和CUDA生态相关,也跟其GPU的架构特性相关。NVIDIA GPU为GPGPU,其CUDA Core,就是尺寸较小、效率更高、可软件编程的CPU核,其Tensor Core就和CPU的协处理器是一样的效果。NVIDIA GPU具有非常好的可编程能力,能通过软件编程实现非常多的功能,覆盖尽可能多的场景。
智算中心采用NVIDIA GPU的劣势,主要是成本原因。一方面,受美国芯片禁令以及大模型刚刚兴起影响,NVIDIA GPU服务器价格水涨船高,直接推高了智算的单位算力成本。另一方面,NVIDIA足够主流,落地也足够低门槛,行业里大家都能够达到,智算中心企业也很难基于NVIDIA GPU构建自己的“巨大”成本优势以及“显著”的差异化竞争力。
GPU的微架构是数以千计、万计的线程核。通过超大规模的小CPU核的并行,比传统CPU的大核并行更加高效。能够在同样的能耗下,实现数量级提升的更高性能。
目前情况下,AI算法仍然快速多变,最合适的加速方案仍然是GPU,专用AI芯片无法解决算法的横向(不同算法间的差异)和纵向(算法的迭代)差异性问题。
(扩展阅读:能不能面向通用人工智能AGI,定义一款新的AI处理器?。)
其他的GPU/AI专用芯片和NVIDIA GPU相比,劣势主要在于其芯片、框架和生态都不够成熟,并且在性能上也有劣势,并且其场景覆盖也较少。
各方面原因,NVIDIA GPU目前相对较贵,其他这些算力芯片唯一的优势可以说是价格,也就是折算到单位算力的成本优势。
NVIDIA GPU场景覆盖广,但单位算力成本高;其他GPU/AI算力芯片场景覆盖少,但单位算力成本低。那有没有办法把这两者的优势合并?既达到NVIDIA GPU一样的场景覆盖,又能像其它算力芯片一样低成本。
答案是肯定的。
通俗的讲,大模型训练是很多台服务器干一件事情。训练可以理解为一个非常庞大的计算任务分解的很多分支任务在不同的服务器节点上进行计算,并且这些分支任务之间还需要紧密的通信和协同。因此,训练对计算架构的一致性,和节点间的高速互联,要求相对较高。
而大模型推理,(通过优化)可以做到一台机器干很多件事情。这样,服务器节点之间的耦合性要求降低;与此同时,对服务器节点的计算架构一致性的要求也随之降低。

受二八定律影响,其他算力芯片覆盖的通常是热点场景,虽然其场景覆盖少,但这些场景的计算量通常会占据整体计算量的大部分。从而使得,通过异构协同的方式,能够显著的降低成本。
在通用计算的时代,x86占据绝大部分市场,基本上不存在多样性算力平台的问题。但随着ARM CPU、RISC-v CPU的逐渐成熟,不同架构的CPU也逐渐共存于同一个算力中心。随着深度学习和大模型的流行,GPU异构计算逐渐成为主流。但NVIDIA GPU成本很高,其他品牌/架构GPU也越来越多的得到应用。此外,还有专用于AI等场合的专用加速处理器器,也开始得到重视。计算平台越来越多的呈现出多样性的特征。
站在竞争和供应链安全的角度,多样性算力是好事情,但站在基础设施和业务层软件的角度,多样性算力则是挑战。如果实现软件定义硬件,做硬件平台架构无关的软件层工作,让更多的硬件平台可以无缝接入,是亟需解决的问题。

从两种计算芯片的异构协同推理开始,我们可以持续扩展,最终形成的必然是多元异构协同计算框架,从而实现多种加速芯片的混合计算,给客户提供一致性的和云边端协同调度,实现最优的算力成本。

好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。