随着分析和AI技术的发展,数据访问变得极其复杂。分析功能需要对数据进行定位、过滤、选择、提取、转换、加载,然后用适当的编码函数处理。AI的出现使情况更加复杂,从最初依赖文件进行训练,发展到对象数据和检索增强生成用于AI推理、向量数据库和语义搜索。
数据工程和科学团队应运而生,他们使用的数据概念与存储团队不同。文件和对象数据管理供应商Komprise认为,这两种团队类型存在概念分歧,需要加强沟通。
我们采访了Komprise总裁兼首席运营官Krishna Subramanian,探讨了这一观点。
**存储团队角色的演变**
传统上,存储团队负责提供基础设施来存储和提供数据访问,而数据工程团队则专注于为AI团队提供服务,为他们的用例提供所需数据。在非结构化数据规模下,数据工程团队缺乏对数据的广泛访问权限和合适的工具来为每个用例组织数据。而拥有组织范围数据视图的存储团队应该系统性地提供快速分类和找到正确数据的方法。
随着AI成为主流,需要一种系统化、自动化的方式,让任何用户都能在适当的数据治理下分析、分类和选择正确的数据。数据存储团队正在演变为数据服务提供商,这需要与专注于从他们管理和保护的数据中获得更大价值的团队建立更紧密的关系。
**两个团队的必要性**
历史上,存储基础设施团队专注于提供基础设施,而数据工程团队专注于数据质量、数据清洗以及服务数据分析师和数据科学家的需求。存储团队关注技术和数据使用,而数据工程团队关注数据内容以及如何从中获得洞察和价值。
AI需要对这种方法进行调整,原因有二:首先,AI依赖于缺乏统一模式且不存储在SQL数据库和电子表格中的非结构化数据;其次,AI将被企业中的每个人使用,因此对所有数据拥有访问权限和管理责任的存储团队应该在提供分类数据、查找正确数据集、标记敏感数据等工具和流程方面发挥更大作用。
**技能要求的变化**
存储团队需要学习如何与各部门合作,丰富元数据以便更容易为项目策划数据。学习如何配置和管理GPU就绪基础设施以及平衡成本、性能和安全性的数据生命周期是另一项技能。同时,他们需要执行治理以保护敏感信息,确保符合法规并防止泄露到商业AI模型中。
**元数据协作**
数据团队、存储团队、安全合规团队和数据所有者应该在通用元数据定义、敏感数据标签和数据治理策略方面进行协作。通用元数据定义包括敏感数据标签(如个人身份信息、知识产权和员工ID)、作者信息、项目代码或授权号码等。
**Komprise的角色**
Komprise提供了一个搜索所有企业非结构化数据的单一位置,并提供持续丰富数据的方法。通过基于角色的访问,数据所有者和数据工程师可以查看他们有权访问的数据,并使用Komprise深度分析功能标记和搜索数据。存储管理员可以通过Komprise智能数据工作流系统性地移动数据、管理数据使用和执行数据工作流。
实际应用案例显示,一家世界最大的癌症研究医院使用Komprise实现了数据团队和存储团队之间的协作,节省了数百万美元。另一个油气客户在分拆过程中,合规团队使用Komprise根据合规团队选择的安全标识符为每个实体分离数据。
Q&A
Q1:为什么存储团队和数据团队需要加强协作?
A:随着AI技术发展,数据访问变得极其复杂。存储团队专注于基础设施,数据团队专注于数据价值挖掘,但AI需要处理大量非结构化数据,且将被企业每个人使用。存储团队拥有组织范围的数据视图,应该在数据分类、查找和治理方面发挥更大作用,因此两个团队需要更紧密协作。
Q2:存储团队需要掌握哪些新技能来适应AI时代?
A:存储团队需要学习如何与各部门合作丰富元数据,掌握GPU就绪基础设施的配置和管理,平衡数据生命周期中的成本、性能和安全性。同时还要执行数据治理以保护敏感信息,确保合规并防止数据泄露到商业AI模型中。
Q3:Komprise如何帮助存储团队和数据团队协作?
A:Komprise提供单一平台搜索所有企业非结构化数据,通过基于角色的访问让不同团队查看权限范围内的数据。数据团队可以使用深度分析功能标记和搜索数据,存储管理员可以通过智能数据工作流系统性地管理数据,为两个团队提供共同的交互界面。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。