Graid公司凭借其基于Nvidia GPU的RAID卡产品在技术细分市场中占据重要地位,正在推进包含人工智能和高性能计算(HPC)产品的开发路线图。
该公司表示目前在全球拥有数千家客户,推出了三款SupremeRAID产品:SR-1010企业级性能卡、SR-1000企业级主流卡和SR-1010工作站及边缘卡。Graid声称2024年营收翻倍,出货约5000张卡片,相比2023年有显著增长。公司预计今年可能在2024年基础上增长60%,通过扩大OEM和经销商合作,营收可能达到1500万美元,销售约7000张卡片。
Graid表示SupremeRAID产品能够保护数据免受驱动器故障影响,并消除存储IO路径中的瓶颈。产品本身并不直接加速任何功能。在硅谷IT媒体巡展中展示的SupremeRAID路线图包含五个组成部分:
SE(简化版)桌面端测试版;AE(人工智能版)面向GPU服务器和AI工作负载;SR-1000 AM(Ampere)基于Nvidia RTX A1000 GPU的NVMe RAID;S1001 AM基于Nvidia RTX A1400 GPU的NVMe RAID;HE(HPC版)NVMe RAID具备阵列迁移功能,支持跨节点高可用性(HA)。
SupremeRAID SE是公司首次进入"自带GPU"市场的产品。它将为PC/工作站用户提供企业级RAID保护和性能,采用订阅模式,今年内发布。该产品支持最多8个NVMe SSD,使用PC中的兼容GPU。建议的工作负载包括视频编辑、后期制作、3D渲染、动画、游戏视觉特效、CAD、建筑、工程和建设(AEC)应用。
面向人工智能的AE版本支持GPUDirect直接NVMe到GPU内存传输,以及数据卸载到NVMe SSD。Graid表示该版本"与BeeGFS、Lustre和Ceph无缝集成,简化大规模数据集管理,无需数据迁移"。在提供RAID保护的同时,可实现超过95%的原始NVMe驱动器性能。
Graid美洲和欧洲、中东、非洲地区高级副总裁兼总经理Thomas Paquette表示:"我们在这个版本中没有内置故障转移功能,将在下一个版本中构建。这将为您提供在不同GPU上放置两个软件副本的机会,实现读取故障转移。"
Graid表示,一个完全启用的Nvidia H100加速器具有144个SM(流式微处理器)或多处理器,大致相当于一个x86核心,管理多个线程和核心进行并行处理。SupremeRAID-AE在一个GPU上使用6个SM,不影响其他部分。它通过时分复用(TDM)实现。Paquette表示AE可以使用更少的SM:"在低IO情况下,我们可以进入睡眠状态并为GPU提供更多资源,我们通过TDM实现了这一点。"
他补充道:"这是我们部署的最佳方式,效果很好。它现在在Supermicro的实验室中。他们正在进行扩展测试。我们正在与Dell测试,也将在联想的实验室中进行产品项目测试。"
Paquette预想Graid将成为一家纯软件公司,只销售许可证。
Nvidia RTX A1000和A400单插槽桌面GPU于去年4月发布,采用Ampere架构。A400引入了加速光线追踪,配备24个用于人工智能处理的Tensor核心和4个显示输出。A1000拥有72个Tensor和18个RT核心,性能更强。
SR-1000 AM结合了SR-1000和SR-1010的功能和性能。SR-1001 AM是SR-1001的后续产品,性能相当但效率更高。
这些AM产品将配备新的Graid软件版本v1.7,具有新GUI、RESTful API、数据完整性日志记录、坏块检测和改进的错误重试机制。
SupremeRAID HE针对HPC环境中的BeeGFS、Ceph和Lustre环境进行了优化。它消除了跨节点数据复制并支持阵列迁移。Graid和Supermicro制作了关于BeeGFS SupremeRAID HE系统的解决方案简报,该系统在每个节点中使用SupremeRAID HE和SupremeRAID SR-1010。
文档表示:"SupremeRAID HE与Supermicro的SSG-221E-DN2R24R和BeeGFS集成,重新定义了NVMe存储标准。利用阵列迁移实现跨节点高可用性(HA),在配备两个24核CPU的2U系统中提供峰值性能,饱和两个400Gb/s网络。通过消除跨节点复制,降低NVMe成本并提供可扩展的适应性。本地读取速度达到132 GB/s,写入速度达到83 GB/s——接近RAID后的理论极限——客户端读取速度可达93 GB/s,写入速度可达84 GB/s,这一解决方案非常适合高性能存储需求,包括HPC、分析和企业应用,并经过严格基准测试验证。"
Paquette表示:"Supermicro称这可能是WEKA杀手,我们需要相当好的扩展才能成为WEKA杀手,但没有什么能阻止我们这样做。"
Graid表示下一个软件版本将增加支持的驱动器数量,从32个扩展到可能的64个,今年晚些时候将发布新的Linux和Windows软件版本。
公司还将支持新的PCIe世代,Paquette表示:"每次PCIe从三代到四代、四代到五代、五代到六代变化时,我们无需对产品做任何改动就能自动获得指数级性能提升。因为我们在服务器中遇到的唯一瓶颈是PCIe基础设施。我们可以使其饱和。所以当六代到来时,我们也会使其饱和。"
纠删码编码在其路线图上,但没有承诺的日期。我们了解到现有的Dell和Graid合作关系可能会进一步发展。Graid也是Nvidia Storage-Next计划的参与者。
Graid是否支持非Nvidia GPU?Paquette表示:"我们知道可以让它在Intel GPU上工作。我们知道可以让它在AMD GPU上工作,但这需要从头重写,我们有太多其他事情要做,无法涉足这个领域。"
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。