随着人工智能逐渐成为推动社会经济发展的新引擎,各行各业都随之步入产业智能升级的队列。在越来越旺盛的算力需求下,我国的人工智能计算中心正呈现全面开花、多点落地的态势。然而,与其他领域的发展初期类似,伴随人工智能中心的建设热潮,相关的争议及讨论也越来越多:有认为人工智能计算中心建起来不一定能用上的,有认为人工智能计算中心建设需要根据算力定价格的,还有认为越多台AI服务器就代表人工智能计算中心能力更强的等等。
不被杂音误导则需回归本源,人工智能计算中心是以基于AI芯片构建的AI计算机集群为基础,涵盖了包括基建设施、硬件设备和软件应用在内的完整系统。而系统的构成,硬件部分往往最先被考量,那么我们先从AI训练芯片说起。
硬件基础设施:重点关注训练芯片
AI芯片对于人工智能有多重要?一言以蔽之,各行业、各企业数字化转型需要构建匹配自身的AI模型,而高质量AI模型则需要通过训练持续迭代优化而来。这就要求提供算力的当地人工智能计算中心具备高性能的AI芯片,以此确保充沛、稳定的算力供应。
具体到AI芯片,又分训练芯片和推理芯片,其中训练芯片是基础中的基础,因为AI首先要解决认知训练的问题,然后才是推理,这就要求训练芯片必须具备浮点运算能力,因为在复杂模型的训练过程中,需对上千亿个浮点参数进行微调数十万步,需要精细的浮点表达能力。相比之下,无浮点运算能力的芯片如用于训练将增加约40%的额外操作,以及至少4倍的内存读写次数。
软件基础设施:框架自主可控和AI使能更关键
框架是所有算法模型的开发基础,90%的AI应用开发都是基于AI框架,其重要性毋庸置疑。现阶段很多厂商采用的都是国外的AI开源框架,实际上相当于将中国人工智能发展的可控性交到了他国手中。未来国与国之间的科技竞争将愈演愈烈,一旦出现问题,我国想要重新实现安全、自主、可控的技术布局,势必要从底层将一切推倒重建,可能造成大量的人力、物力和财力损失。
与其亡羊补牢,不如防患于未然。让人工智能计算中心在建设之初就实现国产化,拥有自主可控的AI框架,目前已成为业内的基本共识。据悉,目前大多数人工智能计算中心都使用了国产自研的全场景AI计算框架MindSpore,该框架原生支持大模型训练,并支持端、边、云全场景协同,具备安全可信、高效执行、一次开发多次部署的能力。
框架之外, AI使能平台也需要关注。以武汉人工智能计算中心采用的ModelArts为例,该平台是全功能AI平台,功能丰富,具备多租户、细粒度资源管理的能力,包含一体化的集成开发环境,支持大规模训练数据管理、大模型的大规模分布式训练,并集成了自主可控的AI计算框架及第三方框架。在云管平台方面,安全、易用是关键考量:可提供公有云技术满足公共服务平台技术要求,支持多租户管理与资源隔离;源自云的服务能力,统一运维,统一计量。
辅助运营: “建起来”更要“用的好”
人工智能计算中心想要稳定运行,建设和使用之间就不能出现断层。当下的人工智能计算中心通常由地方政府牵头,技术支持厂商参与建设。但有些厂商只管建,却不管养,或者提供不了全面的辅助运营。
辅助运营是发展人工智能产业的保障,这一点是业内专家和项目实践的共识。例如武汉、西安、深圳等地的人工智能计算中心在建成之后,技术支持厂商设立生态创新中心,组建辅助运营团队,以“扶上马、送一程”的方式辅助运营公司开展计算中心算力运营和生态运营,向当地企业提供产品、客户、渠道等支持服务,并给当地企业提供科研创新、人才培养、应用孵化、产业发展等服务。这一做法确保了人工智能计算中心建起来之后,既可以高效发挥算力价值,也可以确保AI产业生态建设。
除了软硬件,全栈一体化还涵盖基建设施,同样以武汉、西安人工智能计算中心为例,技术支持厂商采用预制模块化方式建设,不到半年即完成了建设交付,其建设周期是传统楼宇方式机房建设的一半,效率对比高下立现。
当下,国内人工智能计算中心的规划与建设如火如荼,随着武汉、西安、深圳等地人工智能计算中心正式投入运营后对当地人工智能产业的口碑反馈,全栈一体化的优势将更加凸显。相信在可以预见的将来,选择全栈解决方案的人工智能计算中心会越来越多,为我国数字经济的快速发展提供更多动力。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。