随着分析和AI技术的发展,数据访问变得极其复杂。分析功能需要对数据进行定位、过滤、选择、提取、转换、加载,然后用适当的编码函数处理。AI的出现使情况更加复杂,从最初依赖文件进行训练,发展到对象数据和检索增强生成用于AI推理、向量数据库和语义搜索。
数据工程和科学团队应运而生,他们使用的数据概念与存储团队不同。文件和对象数据管理供应商Komprise认为,这两种团队类型存在概念分歧,需要加强沟通。
我们采访了Komprise总裁兼首席运营官Krishna Subramanian,探讨了这一观点。
**存储团队角色的演变**
传统上,存储团队负责提供基础设施来存储和提供数据访问,而数据工程团队则专注于为AI团队提供服务,为他们的用例提供所需数据。在非结构化数据规模下,数据工程团队缺乏对数据的广泛访问权限和合适的工具来为每个用例组织数据。而拥有组织范围数据视图的存储团队应该系统性地提供快速分类和找到正确数据的方法。
随着AI成为主流,需要一种系统化、自动化的方式,让任何用户都能在适当的数据治理下分析、分类和选择正确的数据。数据存储团队正在演变为数据服务提供商,这需要与专注于从他们管理和保护的数据中获得更大价值的团队建立更紧密的关系。
**两个团队的必要性**
历史上,存储基础设施团队专注于提供基础设施,而数据工程团队专注于数据质量、数据清洗以及服务数据分析师和数据科学家的需求。存储团队关注技术和数据使用,而数据工程团队关注数据内容以及如何从中获得洞察和价值。
AI需要对这种方法进行调整,原因有二:首先,AI依赖于缺乏统一模式且不存储在SQL数据库和电子表格中的非结构化数据;其次,AI将被企业中的每个人使用,因此对所有数据拥有访问权限和管理责任的存储团队应该在提供分类数据、查找正确数据集、标记敏感数据等工具和流程方面发挥更大作用。
**技能要求的变化**
存储团队需要学习如何与各部门合作,丰富元数据以便更容易为项目策划数据。学习如何配置和管理GPU就绪基础设施以及平衡成本、性能和安全性的数据生命周期是另一项技能。同时,他们需要执行治理以保护敏感信息,确保符合法规并防止泄露到商业AI模型中。
**元数据协作**
数据团队、存储团队、安全合规团队和数据所有者应该在通用元数据定义、敏感数据标签和数据治理策略方面进行协作。通用元数据定义包括敏感数据标签(如个人身份信息、知识产权和员工ID)、作者信息、项目代码或授权号码等。
**Komprise的角色**
Komprise提供了一个搜索所有企业非结构化数据的单一位置,并提供持续丰富数据的方法。通过基于角色的访问,数据所有者和数据工程师可以查看他们有权访问的数据,并使用Komprise深度分析功能标记和搜索数据。存储管理员可以通过Komprise智能数据工作流系统性地移动数据、管理数据使用和执行数据工作流。
实际应用案例显示,一家世界最大的癌症研究医院使用Komprise实现了数据团队和存储团队之间的协作,节省了数百万美元。另一个油气客户在分拆过程中,合规团队使用Komprise根据合规团队选择的安全标识符为每个实体分离数据。
Q&A
Q1:为什么存储团队和数据团队需要加强协作?
A:随着AI技术发展,数据访问变得极其复杂。存储团队专注于基础设施,数据团队专注于数据价值挖掘,但AI需要处理大量非结构化数据,且将被企业每个人使用。存储团队拥有组织范围的数据视图,应该在数据分类、查找和治理方面发挥更大作用,因此两个团队需要更紧密协作。
Q2:存储团队需要掌握哪些新技能来适应AI时代?
A:存储团队需要学习如何与各部门合作丰富元数据,掌握GPU就绪基础设施的配置和管理,平衡数据生命周期中的成本、性能和安全性。同时还要执行数据治理以保护敏感信息,确保合规并防止数据泄露到商业AI模型中。
Q3:Komprise如何帮助存储团队和数据团队协作?
A:Komprise提供单一平台搜索所有企业非结构化数据,通过基于角色的访问让不同团队查看权限范围内的数据。数据团队可以使用深度分析功能标记和搜索数据,存储管理员可以通过智能数据工作流系统性地管理数据,为两个团队提供共同的交互界面。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。