在生成式AI的淘金热潮中,人们很容易忘记,再先进的建模技术也无法弥补低质量数据的缺陷。当企业竞相部署人工智能时,往往忽视了一项看似平凡却至关重要的工作:保护、治理和准备数据基础。这种疏忽不仅是运营上的疏漏,更是战略层面的风险,特别是在AI数据保护方面。
theCUBE Research的Scott Hebner表示:"数据是AI的生命线。没有信息架构就没有AI。数据是任何AI系统的关键组成部分,因此数据必须具备最高质量。它必须在处理和使用过程中保持完整性,最重要的是,必须得到保护,既要符合监管要求,也要防范各种潜在威胁。因此,任何优秀的长期AI战略都必须从数据层开始,这包括数据保护。"
Hebner在数据保护与AI峰会上与theCUBE的Christophe Bertrand进行了对话,探讨了数据信任鸿沟、智能体AI带来的风险演变,以及保护在构建弹性智能AI基础设施中的基础作用。
大多数企业数据既未受到保护,也未为AI做好准备。根据Hebner的观察,由于风险担忧或缺乏治理,大部分企业数据实际上被搁置。如果没有强有力的AI数据保护,即使是先进的模型也只能在有限的可用信息上运行,这限制了质量和信任度。
"如果你观察组织拥有的绝大多数专有企业数据,实际上今天只有很少一部分被使用,在AI中使用的更少。当你深入研究这些AI项目时,你会发现这是因为他们不确定如何保护这些数据。这是一个风险评估问题。数据就在那里,但还没有准备好用于AI。我们估计企业约95%的数据根本没有准备好,而保护是其中的重要组成部分。"
有效的保护不仅使数据安全,还使其能够大规模地用于AI应用和重复使用。因此,AI数据保护必须被视为设计要求,而非部署后的补救措施。
Bertrand表示:"AI对你的工作流程很重要,对你的工作负载很重要,对你的业务也很重要。因此,AI基础设施的任何部分都必须受到保护。我认为这是基线要求。不要把它当作后续考虑的事情,它实际上是一个设计要求。"
随着AI智能体和自动化以前所未有的速度生成新数据,治理必须跟上步伐。AI数据保护在这一过程中发挥着关键作用,确保系统演进过程中的连续性、完整性和信任度。
Hebner认为:"AI将从这些数据中学习,开始理解什么是真正的高质量数据,什么是受保护的,什么不是。然后,它会从中学习并在下次做得更好。随着系统的不断构建,它在所做的事情上会变得越来越好。我确实认为构建一个支撑治理和信任管理的AI架构,包括保护、监管合规和企业政策在内的框架,有时你会想这是否已经成为基本要求。这只是你必须做的事情;否则,你如何跟上这一切?"
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
清华大学、新加坡国立大学等顶尖高校联合发布重大AI研究成果,创新性地提出变分推理框架解决AI推理训练中的偏见问题。该方法将AI思考过程分解为思维轨迹和答案两部分,通过"思考教练"机制避免AI偏向简单问题的毛病。实验显示在数学、编程等多个领域均有显著提升,为构建更智能可靠的AI系统奠定基础。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
新加坡国立大学等机构研究团队提出反馈条件策略(FCP),让AI直接从文字反馈学习而非转换为数字评分。该方法在数学和通用推理任务上表现优异,能处理复杂混合反馈,支持灵活的行为控制,避免了传统强化学习中的奖励黑客问题,为AI训练开辟了新路径。