AI拥有改变组织洞察获取、决策制定和价值释放方式的力量,但这一切都取决于数据质量。大多数AI项目失败并非因为算法局限性,而是因为数据混乱、分散且准备不充分。这就像果园无法让树木交叉授粉结出好果实一样,需要蜜蜂的帮助。
这正是Google BigQuery云数据AI平台发挥作用的地方。这是一个统一的、AI就绪的数据平台,Google专门构建它来打破数据孤岛、简化治理并大规模加速企业AI项目。通过缩小原始数据与AI就绪洞察之间的差距,BigQuery将智能业务转型的承诺变为现实。
为什么大数据的承诺直到现在才得以实现
在2010年代,大数据处于数字化转型愿景的核心。组织共同怀有通过多个数据源获得即时智能来实现数据目标的梦想。然后现实来了。
Google Cloud EMEA数据分析和AI总经理Thomas Remy解释说:"大数据在实时战略决策方面的承诺遭遇瓶颈,当组织意识到数据准备实际需要什么时。如果你没有干净、高质量或准确的数据,你的模型都无法正常工作。"
手动数据准备既复杂又耗时。第一步是从多样化、往往不兼容的系统中收集数据。然后进行数据分析以识别特征、类型和模式。之后是最耗时的阶段:清理以解决不一致性、重复和格式错误。最后,数据准备好进行集成,这涉及将多个来源合并为统一的、可分析的格式。
Remy说:"人们仍然在数据清理上花费过多时间。这是不太有趣的工作,但绝对关键。"
随着数据量激增,手动完成所有这些工作的挑战加剧。对于千兆字节来说繁琐的工作,对于太字节来说就变得不堪重负。结果是在数据收集和可操作洞察之间形成巨大瓶颈。
智能自动化解决方案
组织需要干净的数据用于AI,但缺乏大规模准备数据的能力。Google在AI中找到了解决方案,并相应地设计了BigQuery。
BigQuery使用AI处理大规模数据集,速度比人类分析师快得多,自动化许多传统上困扰数据团队的耗时任务。AI可以检测异常、建议数据清理规则,并在没有大量人工监督的情况下自动化缺失数据填充。
Remy观察到:"这释放了数据科学家专注于更高价值分析而非数据整理的时间。"
这也使业务分析师能够输入自己的数据,无需依赖IT或数据工程师。这种特定领域的数据是优化AI模型价值的关键。
Remy指出:"最终,所有企业都能访问相同的通用AI模型。差异化因素是他们应用于模型的数据。无论是医疗数据还是个性化客户信息,那才是真正价值出现的地方。"
同样重要的是,自愈管道变得可行。Remy解释:"ETL管道经常中断,不是因为编写得不好,而是因为上游数据的变化。AI可以检测会影响管道的模式变化和映射问题,然后自动调整以维持数据流。"
超越批处理
传统数据仓库按批处理计划运行。它们定期处理数据,在事件和洞察之间产生延迟。因此,真正实时智能的目标仍然难以实现。
BigQuery使用AI通过始终在线的SQL处理来驱动实时处理引擎。
Remy解释:"系统不是安排批处理作业,而是持续运行,不断监控传入数据。这就像有人总是在监听新信息,而不是在设定的间隔检查消息。"
BigQuery的始终在线处理实现了真正的事件驱动洞察。来自物联网传感器、客户交互或金融市场的数据触发即时分析和行动。一个例子是广告中的动态定价,它依赖于立即响应信号以吸引和转化客户的能力。
内置可扩展性和治理
BigQuery的无服务器架构消除了可能破坏AI项目的基础设施管理难题。组织不需要容量规划或手动干预来处理需求激增。系统根据工作负载要求自动扩展。
Remy指出:"你为使用的内容付费,而不是为闲置资源付费。"这种方法降低了前期成本,同时为不可预测的AI工作负载提供了必要的弹性。
内置治理通过明确的访问控制确保数据保护,保证安全协议得到执行。跨区域灾难恢复为持续运营和数据安全防护提供必要的冗余。
集成平台的力量
BigQuery最大的差异化因素之一是与Vertex AI(Google的AI开发平台)的原生集成。这消除了在不同环境之间移动数据的需要,这个过程不仅耗时而且带来安全风险。
Remy解释:"由于BigQuery和Vertex AI完全集成,你可以使用熟悉的SQL语言直接对数据应用生成式AI。一切都保持在BigQuery内,因此开发速度显著提高。"
这种集成也使AI访问民主化。数据专业人员可以利用AI能力而无需学习Python等新编程语言。这为组织内更多人提供了直接使用AI的机会。
该平台处理结构化和非结构化数据。这很关键,因为90%的企业数据仍然是非结构化的。BigLake,Google的统一存储解决方案,充当数据湖和数据仓库能力之间的桥梁,支持Iceberg、Hudi和Delta Lake等开放格式,同时保持一致的治理和安全策略。
实际应用和效益
Remy说:"最让我兴奋的是组织如何打破数据孤岛以获得信息的统一视图。他们不仅分析发生了什么;他们预测接下来会发生什么,并实时采取行动。"
该平台已经在各行业实现令人瞩目的用例。远程信息处理公司Geotab使用BigQuery和Vertex AI每天分析来自车辆的数十亿数据点,优化驾驶员安全、路线规划和可持续交通项目。
医疗机构正在利用文档智能能力扫描医疗记录并提取关键要素以改善患者护理。金融服务公司将结构化交易数据与新闻源等非结构化来源结合,以增强欺诈检测和风险评估。
为今天和明天构建AI基础设施
昨天的数据平台创造了一个悖论:组织收集的数据越多,从中提取价值就越困难。使数据可用所需的大量准备工作使企业变得数据丰富但洞察贫乏。AI时代需要根本不同的方法。
使用AI改善将馈送其模型的数据质量,形成共生关系,这是前进的道路。随着AI继续发展,这个基础对数据驱动的成功将变得更加关键。有远见的组织将收获构建智能数据基础以加速洞察时间的回报。BigQuery现在就将这种竞争优势置于触手可及的范围内。
本文由Google赞助。
好文章,需要你的鼓励
Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统,首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略,配备六种智能工具进行协同分析,在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台,并采用创新的AI生成训练数据方法,为视频AI技术的实际应用开辟了新路径。
联想推出新一代NVMe存储解决方案DE6600系列,包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒,支持多种连接协议,2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置,适用于AI、高性能计算、实时分析等场景,并配备双活控制器和XClarity统一管理平台。
中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力,发现虽然AI能准确识别压缩图像中的文字,但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题,为视觉文本压缩技术的改进指明方向。