在日益不确定的全球经济环境中,AI创新竞赛正在激烈进行。但许多企业仍缺乏执行工具:Gartner预测,到2027年,60%的组织将因数据治理问题而无法实现AI用例的价值。
在AI市场竞争的企业无法承受因安全和主权挑战而停滞不前。它们需要一体化的主权数据和AI解决方案,能够连接专有数据与智能体AI愿景之间的差距。那么,主权数据和AI平台应该是什么样的?
首先是AI就绪数据
AI需要数据。但企业在将数据用于AI时面临三大挑战:
以安全方式获得数据资料的完整统一视图
构建可靠的AI就绪数据管道
在防止专有数据泄露的同时将AI投入生产
从第一个挑战开始。当今任何企业的数据都分散在不同系统中,由不同团队管理,在公有云、私有云和数据中心等不同环境中。没有统一的数据策略,变革性AI计划将失败。
解决方案是对数据的完全可见性和控制。组织必须整合分散的系统,选择能够支持所有数据模型的通用数据平台,包括关系型、向量、文档和时间序列数据。此外,它们需要与Apache Iceberg等开放表格式的无缝集成。这将通过跨孤岛合并数据来确保数据访问和集成,同时保持与所选查询引擎的兼容性。
没有可见性就没有控制。企业需要一个统一控制台来管理、监控和扩展混合基础设施中的数据库,包括自托管、本地部署和多云部署。最后,数据平台必须通过加密、SQL保护、访问管理、审计、性能(智能监控和建议修复)等功能以及通过集中管理的分布式集群实现近零停机时间来提供端到端安全。
让数据流动起来
在统一数据平台中整合企业资产是迈向AI领导地位的重要步骤。但正如许多失望的湖仓采用者所证实的,仅仅集中数据并不能单独解决所有问题。企业需要可靠的AI就绪数据管道,按需为其构建者提供数据。
问题在于,用于生成式AI的企业数据管道往往笨重且深奥,涉及九个或更多不同步骤。开发团队在如何存储、索引和查询向量嵌入及其相关对象方面存在困难。大多数组织通过将现有数据基础设施与专用向量数据库进行改装来加剧这个问题,创造出更多需要专业知识维护的分片系统。结果是:AI项目因数据管道混乱而陷入困境。
企业需要一个能够标准化AI管道的AI工厂。在数据方面,这意味着集成嵌入生成、存储和索引工作流,以提供从摄取到相似性搜索的自动化管道。换句话说,这是一条将原始数据转换为安全、AI就绪资产的装配线。
主权AI工厂还必须解决开发人员、数据工程师、数据科学家和其他使用AI就绪数据的用户面临的最后一公里挑战。这意味着实施低代码和无代码开发工具,简化AI应用程序的开发,包括生成式AI助手和智能体,并使用由企业向量引擎支持的安全AI知识库。
EDB Postgres AI工厂大幅加速投产时间,在开发阶段节省高达90%的步骤。但涉及主权AI时,考虑如何保持整个机器的端到端安全至关重要。
保持主权
摩根大通首席信息安全官Patrick Opet最近发布公开信,呼吁供应商解决标准云模型的网络安全弱点。Opet表示,虽然SaaS"提供效率和快速创新,但同时放大任何弱点、中断或破坏的影响,创造具有潜在灾难性系统性后果的单点故障"。
这是当今的普遍情绪:技术必须默认安全和主权。不幸的是,当今大多数生成式AI工具都需要将数据传输到第三方云。这是合规噩梦。
要真正实现数据和AI主权,平台必须:
通过内置治理保护敏感信息
精确控制向公共大语言模型发送的信息
消除第三方数据暴露风险
提供灵活的部署选项,在企业自托管环境中实现端到端功能
幸运的是,创新正在赢得主权战争。一个令人兴奋的发展是所谓的"离提示"数据访问管理,它防止专有信息暴露给公共托管的大语言模型。
离提示技术通过将敏感数据隔离在可配置的向量存储中来工作,使其被引用但不嵌入发送给公共大语言模型的提示中。大语言模型无法看到或学习离提示数据,因此无法存储或共享专有数据。离提示控制防止数据泄露,还通过减少提示大小帮助控制成本。
通过数据和AI主权跨越智能体AI鸿沟
业务领导者面临来自客户和竞争对手实施AI的巨大压力。但今天,这需要跨多个供应商的多个专业产品,这带来安全风险并增加维护开销。这种分片方法占用稀缺的AI人才,开发人员将50-80%的时间花在集成上。同时,敏感数据经常流向外部供应商,造成治理风险并限制专有数据资产的战略优势。
AI工厂与组织数据平台无缝嵌入时,消除实施复杂性并加速智能体AI的价值实现时间。它通过将向量数据库、嵌入管道、模型服务和智能体编排集成到单一、连贯的系统中来实现这一目标,使组织能够在几小时或几天内而不是几个月到几年内部署生产就绪的应用程序。它还应为开发人员提供低代码环境来构建复杂的智能体AI,以及为公民开发者提供无代码选项来串联不同的推理和智能体能力以满足特定业务需求。
这种综合方法提供随AI技术发展而适应的灵活性。但为了灵活适应不断变化的合规和监管关切,它还必须在可信环境中保持完整的数据主权和治理。根据独立基准研究,这样的解决方案现在触手可及,能够实现3倍更快的投产时间、8倍更高的应用程序性能和6倍更好的成本效率,同时实现51%的总拥有成本降低。
Q&A
Q1:主权数据和AI平台的核心优势是什么?
A:主权数据和AI平台能够在保持数据安全和合规的前提下,将向量数据库、嵌入管道、模型服务和智能体编排集成到单一系统中,实现3倍更快的投产时间、8倍更高的应用程序性能和6倍更好的成本效率,同时降低51%的总拥有成本。
Q2:什么是"离提示"数据访问管理技术?
A:"离提示"技术通过将敏感数据隔离在可配置的向量存储中,使数据被引用但不嵌入发送给公共大语言模型的提示中。这样大语言模型无法看到或学习离提示数据,防止专有数据泄露,同时通过减少提示大小帮助控制成本。
Q3:企业在AI数据管道方面面临哪些主要挑战?
A:企业面临三大挑战:获得数据的完整统一安全视图、构建可靠的AI就绪数据管道、在防止专有数据泄露的同时将AI投入生产。传统数据管道往往涉及九个或更多步骤,系统分散,需要专业知识维护,导致AI项目陷入困境。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。