Graid公司凭借其基于Nvidia GPU的RAID卡产品在技术细分市场中占据重要地位,正在推进包含人工智能和高性能计算(HPC)产品的开发路线图。
该公司表示目前在全球拥有数千家客户,推出了三款SupremeRAID产品:SR-1010企业级性能卡、SR-1000企业级主流卡和SR-1010工作站及边缘卡。Graid声称2024年营收翻倍,出货约5000张卡片,相比2023年有显著增长。公司预计今年可能在2024年基础上增长60%,通过扩大OEM和经销商合作,营收可能达到1500万美元,销售约7000张卡片。
Graid表示SupremeRAID产品能够保护数据免受驱动器故障影响,并消除存储IO路径中的瓶颈。产品本身并不直接加速任何功能。在硅谷IT媒体巡展中展示的SupremeRAID路线图包含五个组成部分:
SE(简化版)桌面端测试版;AE(人工智能版)面向GPU服务器和AI工作负载;SR-1000 AM(Ampere)基于Nvidia RTX A1000 GPU的NVMe RAID;S1001 AM基于Nvidia RTX A1400 GPU的NVMe RAID;HE(HPC版)NVMe RAID具备阵列迁移功能,支持跨节点高可用性(HA)。
SupremeRAID SE是公司首次进入"自带GPU"市场的产品。它将为PC/工作站用户提供企业级RAID保护和性能,采用订阅模式,今年内发布。该产品支持最多8个NVMe SSD,使用PC中的兼容GPU。建议的工作负载包括视频编辑、后期制作、3D渲染、动画、游戏视觉特效、CAD、建筑、工程和建设(AEC)应用。
面向人工智能的AE版本支持GPUDirect直接NVMe到GPU内存传输,以及数据卸载到NVMe SSD。Graid表示该版本"与BeeGFS、Lustre和Ceph无缝集成,简化大规模数据集管理,无需数据迁移"。在提供RAID保护的同时,可实现超过95%的原始NVMe驱动器性能。
Graid美洲和欧洲、中东、非洲地区高级副总裁兼总经理Thomas Paquette表示:"我们在这个版本中没有内置故障转移功能,将在下一个版本中构建。这将为您提供在不同GPU上放置两个软件副本的机会,实现读取故障转移。"
Graid表示,一个完全启用的Nvidia H100加速器具有144个SM(流式微处理器)或多处理器,大致相当于一个x86核心,管理多个线程和核心进行并行处理。SupremeRAID-AE在一个GPU上使用6个SM,不影响其他部分。它通过时分复用(TDM)实现。Paquette表示AE可以使用更少的SM:"在低IO情况下,我们可以进入睡眠状态并为GPU提供更多资源,我们通过TDM实现了这一点。"
他补充道:"这是我们部署的最佳方式,效果很好。它现在在Supermicro的实验室中。他们正在进行扩展测试。我们正在与Dell测试,也将在联想的实验室中进行产品项目测试。"
Paquette预想Graid将成为一家纯软件公司,只销售许可证。
Nvidia RTX A1000和A400单插槽桌面GPU于去年4月发布,采用Ampere架构。A400引入了加速光线追踪,配备24个用于人工智能处理的Tensor核心和4个显示输出。A1000拥有72个Tensor和18个RT核心,性能更强。
SR-1000 AM结合了SR-1000和SR-1010的功能和性能。SR-1001 AM是SR-1001的后续产品,性能相当但效率更高。
这些AM产品将配备新的Graid软件版本v1.7,具有新GUI、RESTful API、数据完整性日志记录、坏块检测和改进的错误重试机制。
SupremeRAID HE针对HPC环境中的BeeGFS、Ceph和Lustre环境进行了优化。它消除了跨节点数据复制并支持阵列迁移。Graid和Supermicro制作了关于BeeGFS SupremeRAID HE系统的解决方案简报,该系统在每个节点中使用SupremeRAID HE和SupremeRAID SR-1010。
文档表示:"SupremeRAID HE与Supermicro的SSG-221E-DN2R24R和BeeGFS集成,重新定义了NVMe存储标准。利用阵列迁移实现跨节点高可用性(HA),在配备两个24核CPU的2U系统中提供峰值性能,饱和两个400Gb/s网络。通过消除跨节点复制,降低NVMe成本并提供可扩展的适应性。本地读取速度达到132 GB/s,写入速度达到83 GB/s——接近RAID后的理论极限——客户端读取速度可达93 GB/s,写入速度可达84 GB/s,这一解决方案非常适合高性能存储需求,包括HPC、分析和企业应用,并经过严格基准测试验证。"
Paquette表示:"Supermicro称这可能是WEKA杀手,我们需要相当好的扩展才能成为WEKA杀手,但没有什么能阻止我们这样做。"
Graid表示下一个软件版本将增加支持的驱动器数量,从32个扩展到可能的64个,今年晚些时候将发布新的Linux和Windows软件版本。
公司还将支持新的PCIe世代,Paquette表示:"每次PCIe从三代到四代、四代到五代、五代到六代变化时,我们无需对产品做任何改动就能自动获得指数级性能提升。因为我们在服务器中遇到的唯一瓶颈是PCIe基础设施。我们可以使其饱和。所以当六代到来时,我们也会使其饱和。"
纠删码编码在其路线图上,但没有承诺的日期。我们了解到现有的Dell和Graid合作关系可能会进一步发展。Graid也是Nvidia Storage-Next计划的参与者。
Graid是否支持非Nvidia GPU?Paquette表示:"我们知道可以让它在Intel GPU上工作。我们知道可以让它在AMD GPU上工作,但这需要从头重写,我们有太多其他事情要做,无法涉足这个领域。"
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。