近日,国际权威AI性能基准评测平台MLPerf发布最新推理(Inference v2.0)测试成绩,总计超过10家国际知名服务器厂商的数十种产品参与了本次测试。其中,宁畅X640 G40、X660 G45 、X620 G40人工智能服务器,在Closed(封闭)赛段的3D-UNet99(图像分割)、SSD-large(目标检测重量级)与Bert-99(自然语言处理)等模型测试中性能表现出色,共获得59项第一成绩。
MLPerf基准测试在国际AI领域有极高影响力,其基准联盟已有谷歌、Intel、NVIDIA、微软、Facebook等超50家成员。MLPerf Inference v2.0 AI基准测试包括Datacenter(数据中心)和Edge(边缘)两大场景,参与测试的各计算系统基于同一套参数运行。
X640 G40获得Datacenter组全场第一
搭载NVIDIA A100 Tensor Core 80GB GPU,宁畅X640 G40 在Closed(封闭)赛段所有已发布的产品中,获得10项Datacenter组总体性能第一成绩,也是本次测试中的全场第一。
最新的MLPerfInference v2.0设置了不同领域的Benchmark子项,贴近前沿AI应用场景。X640 G40在3D-UNet99(图像分割)、SSD-large(目标检测重量级)、Rnnt(语音辨识)和Bert-99(自然语言处理)等多个经典模型测试中均取得高光表现。
拥有强劲性能的宁畅X640 G40可针对不同AI场景和训练模型进行互联优化,满足不同类型客户需求。其中,SSD-large模型在线分数8994.9、离线分数9279.37,这一成绩代表了宁畅X640 G40每秒可完成9200多张图片中信息的分类、定位与精准检测,且可应答近9000次实时目标检测的推理任务;Rnnt模型离线分数为127213,代表宁畅X640 G40每秒可完成12万次语音的识别请求。
X660G45拿下Edge组单项性能冠军,Datacenter组同配置7项第一
所有产品中,宁畅X660 G45搭载NVIDIA A100 Tensor Core80GB GPU,在SSD-Mobilenet(目标检测移动端)模型测试的Multi-Stream(多数据流)场景中,以0.44成绩击败所有参赛产品,获第一成绩。同时,X660 G45还取得Datacenter组同配置的7项第一,在SSD-large、ResNet、Bert-99、Dlrm -99(智能推荐)四项任务中都实现了极佳的性能结果。其ResNet得分在线为286,030、离线为316,636,代表宁畅X660 G45能够每秒完成超过30万张图片中各个事物类别的海量识别。
X660 G45是专为深度学习训练开发的高性能计算平台,采用600GB/s的NVLink总线高速互联,每个GPU还可搭配HDR 200Gb/s InfiniBand网络和NVMe SSD高速缓存,帮助用户搭建GPU高速集群,同时结合近500TB的本地存储容量,可极大缩短AI模型训练时间。
X620 G40赢取Datacenter组同配置15项第一
本次测评中,搭载4颗NVIDIA A2 Tensor Core的宁畅X620 G40获得Datacenter组同配置15项第一的成绩。X620 G40在SSD-large、ResNet、3D-UNet99、Bert-99、Rnnt和Dlrm-99等几乎所有模型测试中都取得优异成绩,充分证明产品在推理性能上出类拔萃,能够应对各种复杂的AI 挑战。
X620 G40作为一款2U高度人工智能服务器,支持PCIe4.0高速总线技术,适配NVIDIA各类GPU加速卡,是理想AI推理计算平台,同时还可胜任桌面虚拟化、云游戏和视频流转码等多IT行业用途需求。此外,X620 G40还具备关键部件健康状态监控和上报功能,可以为数据中心运维保驾护航。
此次MLPerf Inference v2.0榜单的发布,进一步彰显了宁畅在AI服务器领域的实力地位。以此为依托,宁畅将持续推动技术创新,不断深入各种AI应用场景,以智能定制算力赋能用户更好发展。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。