2023年7月6日,昇腾人工智能产业高峰论坛在上海举办。论坛现场,华为联合四家伙伴共同发布昇腾AI大模型训推一体化解决方案,加速大模型在各行业里快速落地应用。

随着深度学习领域的快速发展,越来越多的应用场景需要使用大模型来进行训练和推理。然而,企业在大模型开发全流程中,常常面临切换硬件集群、适配底层硬件以及微调优化等复杂问题。加之大模型研发周期长、部署门槛高等系列挑战,“攒机”式开发手段难以满足需求。
为有效解决以上问题,华为联合四家伙伴共同发布昇腾AI大模型训推一体化解决方案,实现了训推一体,提供了“开箱即用”的解决方案,同一个集群内可以无缝切换大模型的训练和推理过程,从而为客户提供高效的大模型训练和推理部署流程;同时,解决方案内置了大模型推理引擎、调优工具和算子加速库,支撑客户开箱即用,无需进行二次硬件适配,即可让客户能够直接使用大型预训练模型,从而降低了技术门槛;结合昇腾AI基础软硬件能力和伙伴模型和平台优势,通过嵌入四家伙伴各自在大模型训练、微调和优化方面的算法和模型能力,共同设计、联合开发、协同上市、持续迭代,实现为客户提供更全面的解决方案,更能满足全场景、全行业客户使用。
昇腾AI大模型训推一体化解决方案重塑了大模型开发流程,让大模型在行业充分发挥价值,帮助客户更好地应用大型深度学习模型。未来,华为也将继续携手合作伙伴,共同推动大模型与行业的深度融合与应用落地,为更多行业提供高效的解决方案,加速全场景、全行业应用成果落地。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。