随着分析和AI技术的发展,数据访问变得极其复杂。分析功能需要对数据进行定位、过滤、选择、提取、转换、加载,然后用适当的编码函数处理。AI的出现使情况更加复杂,从最初依赖文件进行训练,发展到对象数据和检索增强生成用于AI推理、向量数据库和语义搜索。
数据工程和科学团队应运而生,他们使用的数据概念与存储团队不同。文件和对象数据管理供应商Komprise认为,这两种团队类型存在概念分歧,需要加强沟通。
我们采访了Komprise总裁兼首席运营官Krishna Subramanian,探讨了这一观点。
**存储团队角色的演变**
传统上,存储团队负责提供基础设施来存储和提供数据访问,而数据工程团队则专注于为AI团队提供服务,为他们的用例提供所需数据。在非结构化数据规模下,数据工程团队缺乏对数据的广泛访问权限和合适的工具来为每个用例组织数据。而拥有组织范围数据视图的存储团队应该系统性地提供快速分类和找到正确数据的方法。
随着AI成为主流,需要一种系统化、自动化的方式,让任何用户都能在适当的数据治理下分析、分类和选择正确的数据。数据存储团队正在演变为数据服务提供商,这需要与专注于从他们管理和保护的数据中获得更大价值的团队建立更紧密的关系。
**两个团队的必要性**
历史上,存储基础设施团队专注于提供基础设施,而数据工程团队专注于数据质量、数据清洗以及服务数据分析师和数据科学家的需求。存储团队关注技术和数据使用,而数据工程团队关注数据内容以及如何从中获得洞察和价值。
AI需要对这种方法进行调整,原因有二:首先,AI依赖于缺乏统一模式且不存储在SQL数据库和电子表格中的非结构化数据;其次,AI将被企业中的每个人使用,因此对所有数据拥有访问权限和管理责任的存储团队应该在提供分类数据、查找正确数据集、标记敏感数据等工具和流程方面发挥更大作用。
**技能要求的变化**
存储团队需要学习如何与各部门合作,丰富元数据以便更容易为项目策划数据。学习如何配置和管理GPU就绪基础设施以及平衡成本、性能和安全性的数据生命周期是另一项技能。同时,他们需要执行治理以保护敏感信息,确保符合法规并防止泄露到商业AI模型中。
**元数据协作**
数据团队、存储团队、安全合规团队和数据所有者应该在通用元数据定义、敏感数据标签和数据治理策略方面进行协作。通用元数据定义包括敏感数据标签(如个人身份信息、知识产权和员工ID)、作者信息、项目代码或授权号码等。
**Komprise的角色**
Komprise提供了一个搜索所有企业非结构化数据的单一位置,并提供持续丰富数据的方法。通过基于角色的访问,数据所有者和数据工程师可以查看他们有权访问的数据,并使用Komprise深度分析功能标记和搜索数据。存储管理员可以通过Komprise智能数据工作流系统性地移动数据、管理数据使用和执行数据工作流。
实际应用案例显示,一家世界最大的癌症研究医院使用Komprise实现了数据团队和存储团队之间的协作,节省了数百万美元。另一个油气客户在分拆过程中,合规团队使用Komprise根据合规团队选择的安全标识符为每个实体分离数据。
Q&A
Q1:为什么存储团队和数据团队需要加强协作?
A:随着AI技术发展,数据访问变得极其复杂。存储团队专注于基础设施,数据团队专注于数据价值挖掘,但AI需要处理大量非结构化数据,且将被企业每个人使用。存储团队拥有组织范围的数据视图,应该在数据分类、查找和治理方面发挥更大作用,因此两个团队需要更紧密协作。
Q2:存储团队需要掌握哪些新技能来适应AI时代?
A:存储团队需要学习如何与各部门合作丰富元数据,掌握GPU就绪基础设施的配置和管理,平衡数据生命周期中的成本、性能和安全性。同时还要执行数据治理以保护敏感信息,确保合规并防止数据泄露到商业AI模型中。
Q3:Komprise如何帮助存储团队和数据团队协作?
A:Komprise提供单一平台搜索所有企业非结构化数据,通过基于角色的访问让不同团队查看权限范围内的数据。数据团队可以使用深度分析功能标记和搜索数据,存储管理员可以通过智能数据工作流系统性地管理数据,为两个团队提供共同的交互界面。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。