随着分析和AI技术的发展,数据访问变得极其复杂。分析功能需要对数据进行定位、过滤、选择、提取、转换、加载,然后用适当的编码函数处理。AI的出现使情况更加复杂,从最初依赖文件进行训练,发展到对象数据和检索增强生成用于AI推理、向量数据库和语义搜索。
数据工程和科学团队应运而生,他们使用的数据概念与存储团队不同。文件和对象数据管理供应商Komprise认为,这两种团队类型存在概念分歧,需要加强沟通。
我们采访了Komprise总裁兼首席运营官Krishna Subramanian,探讨了这一观点。
**存储团队角色的演变**
传统上,存储团队负责提供基础设施来存储和提供数据访问,而数据工程团队则专注于为AI团队提供服务,为他们的用例提供所需数据。在非结构化数据规模下,数据工程团队缺乏对数据的广泛访问权限和合适的工具来为每个用例组织数据。而拥有组织范围数据视图的存储团队应该系统性地提供快速分类和找到正确数据的方法。
随着AI成为主流,需要一种系统化、自动化的方式,让任何用户都能在适当的数据治理下分析、分类和选择正确的数据。数据存储团队正在演变为数据服务提供商,这需要与专注于从他们管理和保护的数据中获得更大价值的团队建立更紧密的关系。
**两个团队的必要性**
历史上,存储基础设施团队专注于提供基础设施,而数据工程团队专注于数据质量、数据清洗以及服务数据分析师和数据科学家的需求。存储团队关注技术和数据使用,而数据工程团队关注数据内容以及如何从中获得洞察和价值。
AI需要对这种方法进行调整,原因有二:首先,AI依赖于缺乏统一模式且不存储在SQL数据库和电子表格中的非结构化数据;其次,AI将被企业中的每个人使用,因此对所有数据拥有访问权限和管理责任的存储团队应该在提供分类数据、查找正确数据集、标记敏感数据等工具和流程方面发挥更大作用。
**技能要求的变化**
存储团队需要学习如何与各部门合作,丰富元数据以便更容易为项目策划数据。学习如何配置和管理GPU就绪基础设施以及平衡成本、性能和安全性的数据生命周期是另一项技能。同时,他们需要执行治理以保护敏感信息,确保符合法规并防止泄露到商业AI模型中。
**元数据协作**
数据团队、存储团队、安全合规团队和数据所有者应该在通用元数据定义、敏感数据标签和数据治理策略方面进行协作。通用元数据定义包括敏感数据标签(如个人身份信息、知识产权和员工ID)、作者信息、项目代码或授权号码等。
**Komprise的角色**
Komprise提供了一个搜索所有企业非结构化数据的单一位置,并提供持续丰富数据的方法。通过基于角色的访问,数据所有者和数据工程师可以查看他们有权访问的数据,并使用Komprise深度分析功能标记和搜索数据。存储管理员可以通过Komprise智能数据工作流系统性地移动数据、管理数据使用和执行数据工作流。
实际应用案例显示,一家世界最大的癌症研究医院使用Komprise实现了数据团队和存储团队之间的协作,节省了数百万美元。另一个油气客户在分拆过程中,合规团队使用Komprise根据合规团队选择的安全标识符为每个实体分离数据。
Q&A
Q1:为什么存储团队和数据团队需要加强协作?
A:随着AI技术发展,数据访问变得极其复杂。存储团队专注于基础设施,数据团队专注于数据价值挖掘,但AI需要处理大量非结构化数据,且将被企业每个人使用。存储团队拥有组织范围的数据视图,应该在数据分类、查找和治理方面发挥更大作用,因此两个团队需要更紧密协作。
Q2:存储团队需要掌握哪些新技能来适应AI时代?
A:存储团队需要学习如何与各部门合作丰富元数据,掌握GPU就绪基础设施的配置和管理,平衡数据生命周期中的成本、性能和安全性。同时还要执行数据治理以保护敏感信息,确保合规并防止数据泄露到商业AI模型中。
Q3:Komprise如何帮助存储团队和数据团队协作?
A:Komprise提供单一平台搜索所有企业非结构化数据,通过基于角色的访问让不同团队查看权限范围内的数据。数据团队可以使用深度分析功能标记和搜索数据,存储管理员可以通过智能数据工作流系统性地管理数据,为两个团队提供共同的交互界面。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。