移动互联网时代,谁获得用户和流量,谁就能获得成功。底层逻辑是移动互联网的系统边际成本很低。因此,“通过免费吸引客户,然后再获取收益”,成为了最典型的商业模式。
大模型时代,底层逻辑发生了很大的变化。系统的成本几乎和客户使用量成线性关系,边际成本依然很高。这里的成本绝大部分都是推理的算力消耗。
在大模型时代,谁能把推理成本降到极致,谁就能获得最终的胜利。
在大模型时代,谁能把推理成本降到极致,谁就能获得最终的胜利。
目前对AI智算平台的选择,简单来说,就两个:NVIDIA GPU或其他GPU/AI芯片(NVIDIA之外,统称其他)。
CUDA是NVIDIA GPU的计算框架,通过CUDA,可以将GPU强大的计算能力释放出来。基于NVIDIA GPU的CUDA及其所构成的生态是NVIDIA的护城河。CUDA生态,也是目前智算领域几乎独占的计算生态。
这里讲一个案例,来说明NVIDIA CUDA生态的强大。
目前流行的大模型算法基本上都是基于Transformer结构或其变种,Transformer之所以大行其道的原因,与其说是算法本身的价值,不如说是Transformer能够把GPU强大的并行计算能力充分发挥出来。Transformer具有NVIDIA GPU的亲和性,从而才能脱颖而出。
可以这样说,只有NVIDIA GPU+CUDA亲和的AI算法才有可能走出来;反过来说,如果不是NVIDIA GPU+CUDA亲和的算法,即使算法本身的优势再大,也很难被大规模的使用。
NVIDIA GPU+CUDA生态的强大能力,可见一斑!
智算中心选择NVIDIA平台的最大优势是:兼容性好。目前,主流的大模型算法都是基于NVIDIA GPU和CUDA框架开发的,开源的大模型更是如此。这样,在NVIDIA GPU平台上,开源大模型拿过来,就可以很快跑起来。
NVIDIA GPU还有一个重要的优势是场景覆盖广。不管是做AIGC、AI Agent,或者其他可能的大模型应用,都有丰富的基于NVIDIA GPU和CUDA的开源模型和开源应用等相关资源可供选择。开发者可以快速原型验证,然后在此基础上继续调优。
NVIDIA GPU场景覆盖广,既和CUDA生态相关,也跟其GPU的架构特性相关。NVIDIA GPU为GPGPU,其CUDA Core,就是尺寸较小、效率更高、可软件编程的CPU核,其Tensor Core就和CPU的协处理器是一样的效果。NVIDIA GPU具有非常好的可编程能力,能通过软件编程实现非常多的功能,覆盖尽可能多的场景。
智算中心采用NVIDIA GPU的劣势,主要是成本原因。一方面,受美国芯片禁令以及大模型刚刚兴起影响,NVIDIA GPU服务器价格水涨船高,直接推高了智算的单位算力成本。另一方面,NVIDIA足够主流,落地也足够低门槛,行业里大家都能够达到,智算中心企业也很难基于NVIDIA GPU构建自己的“巨大”成本优势以及“显著”的差异化竞争力。
GPU的微架构是数以千计、万计的线程核。通过超大规模的小CPU核的并行,比传统CPU的大核并行更加高效。能够在同样的能耗下,实现数量级提升的更高性能。
目前情况下,AI算法仍然快速多变,最合适的加速方案仍然是GPU,专用AI芯片无法解决算法的横向(不同算法间的差异)和纵向(算法的迭代)差异性问题。
(扩展阅读:能不能面向通用人工智能AGI,定义一款新的AI处理器?。)
其他的GPU/AI专用芯片和NVIDIA GPU相比,劣势主要在于其芯片、框架和生态都不够成熟,并且在性能上也有劣势,并且其场景覆盖也较少。
各方面原因,NVIDIA GPU目前相对较贵,其他这些算力芯片唯一的优势可以说是价格,也就是折算到单位算力的成本优势。
NVIDIA GPU场景覆盖广,但单位算力成本高;其他GPU/AI算力芯片场景覆盖少,但单位算力成本低。那有没有办法把这两者的优势合并?既达到NVIDIA GPU一样的场景覆盖,又能像其它算力芯片一样低成本。
答案是肯定的。
通俗的讲,大模型训练是很多台服务器干一件事情。训练可以理解为一个非常庞大的计算任务分解的很多分支任务在不同的服务器节点上进行计算,并且这些分支任务之间还需要紧密的通信和协同。因此,训练对计算架构的一致性,和节点间的高速互联,要求相对较高。
而大模型推理,(通过优化)可以做到一台机器干很多件事情。这样,服务器节点之间的耦合性要求降低;与此同时,对服务器节点的计算架构一致性的要求也随之降低。
受二八定律影响,其他算力芯片覆盖的通常是热点场景,虽然其场景覆盖少,但这些场景的计算量通常会占据整体计算量的大部分。从而使得,通过异构协同的方式,能够显著的降低成本。
在通用计算的时代,x86占据绝大部分市场,基本上不存在多样性算力平台的问题。但随着ARM CPU、RISC-v CPU的逐渐成熟,不同架构的CPU也逐渐共存于同一个算力中心。随着深度学习和大模型的流行,GPU异构计算逐渐成为主流。但NVIDIA GPU成本很高,其他品牌/架构GPU也越来越多的得到应用。此外,还有专用于AI等场合的专用加速处理器器,也开始得到重视。计算平台越来越多的呈现出多样性的特征。
站在竞争和供应链安全的角度,多样性算力是好事情,但站在基础设施和业务层软件的角度,多样性算力则是挑战。如果实现软件定义硬件,做硬件平台架构无关的软件层工作,让更多的硬件平台可以无缝接入,是亟需解决的问题。
从两种计算芯片的异构协同推理开始,我们可以持续扩展,最终形成的必然是多元异构协同计算框架,从而实现多种加速芯片的混合计算,给客户提供一致性的和云边端协同调度,实现最优的算力成本。
好文章,需要你的鼓励
这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设计了结合检索效率与结果质量的精细奖励机制。实验表明,该方法在各类视觉理解任务上大幅超越现有技术,Qwen2.5-VL-7B和3B模型分别提升了20%和30%的性能,为处理图表、布局等复杂视觉信息提供了更强大的工具。
香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得不当奖励。研究提出混合验证器设计,结合两者优势,在数学推理任务上将性能提升3个百分点,为开发更可靠的AI训练系统提供重要启示。
这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该方法在处理复杂多物体场景时性能提升高达50%,为医学研究、建筑设计和刑事侦查等领域开创了新的应用可能。
这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。