StarTree Inc.是一家基于Apache Pinot开源在线分析处理数据库销售实时分析平台和云服务的公司,今日成为最新一家宣布全面支持Apache Iceberg的数据分析提供商。
StarTree Cloud托管服务将从今日起采用Iceberg作为其数据湖仓之上的分析和服务层。该公司表示,此举为Iceberg在需要数千名用户高并发的实时应用中创造了新的使用场景。特别是,它使Iceberg更容易应用于面向客户的场景,组织希望在不依赖复杂多步骤管道的情况下对外公开数据。
Iceberg是一个位于云存储数据文件之上的管理层,用于改善一致性、可管理性和查询性能。它作为事实上的表标准正在快速获得认可,取代了各种专有替代方案。
Iceberg为Parquet等格式的结构化文件提供事务性访问,Parquet是一种针对大型分析数据集优化高效读写访问的列式存储文件格式。然而,Iceberg缺乏处理低延迟、高并发查询的原生能力。
因此,组织通常将Iceberg数据提取到单独的系统中,如键值存储或专有格式,以实现亚秒级响应。这些需要工程密集型管道和数据重复,同时限制了灵活性。
查询复杂性
StarTree产品负责人Chinmay Soman表示:"你不仅在重复数据,还在放大数据本身,因为你必须实现维度和指标的所有组合,以便在类似键值存储的方式中轻松查询。"
StarTree表示,它能够直接查询Iceberg表,无需移动或转换底层数据。该集成支持开放格式,并利用性能增强功能,包括Pinot索引和物化、本地缓存和智能预取。
首席营销官Chad Meley表示:"如今的数据产品越来越依赖湖仓的历史数据,但一直缺少服务层。通过以亚秒级延迟直接查询Iceberg,我们消除了对中间管道、重复存储和外部数据库的需求。"
高管们表示,Iceberg支持将StarTree的目标市场扩展到其最初专注的流式和低延迟分析之外。Meley说:"这对我们来说确实是一个新的使用场景。我们解决的主要挑战不再仅仅是数据新鲜度。而是帮助客户构建可扩展的数据产品,而无需所有的冗余和复杂性。"
StarTree能够直接在Iceberg表上定义各种索引和预聚合物化。数值数据、文本、JavaScript对象表示法、地理空间数据和其他类型的索引可以分布在计算节点本地或存储在对象存储中。
Soman表示,该集成基于StarTree已经完成的查询Parquet文件和基于S3对象存储的工作。他说:"Parquet不是为随机读取访问设计的,但我们已经调整了Pinot来将其用作前向索引。结合我们对Iceberg清单和元数据的理解,为我们提供了所需的构建块。"
数据保持原位
该公司强调,其查询引擎仍使用专有索引策略来实现性能,但数据本身保持开放格式。Meley说:"我们不会将数据从Iceberg移动到StarTree的专有格式中。在这种情况下,唯一专有的是索引。"
对Iceberg的支持使金融科技公司等客户能够使用StarTree为面向商户的仪表板提供支持,这些仪表板报告历史现金流或队列收入指标。运输和物流组织正在构建交互式仪表板,以审查跨时间的交付性能、错误率和路线效率。在这两种情况下,数据不需要是实时的,但仍必须在严格的服务级别协议下为大型用户群提供服务。
SiliconANGLE姊妹市场研究公司theCUBE Research的首席分析师Paul Nashawaty表示,这种方法解决了现代数据架构中日益增长的差距。他说:"Iceberg的采用正在加速,但大多数查询引擎无法满足面向客户应用的性能服务级别协议。StarTree在不重复的情况下以高并发服务Iceberg数据的能力是一个及时的进步。"
Soman表示,使用Iceberg而不是Pinot的专有原生格式会有轻微的性能权衡,但Pinot仍然能够以亚秒级延迟处理每秒数百个查询。
Meley表示,支持Iceberg的决定既反映了市场动力也反映了客户的实际需求。他说:"我们所有的客户都在询问Iceberg。它正在成为湖仓存储的标准,这使我们能够原生支持它,同时简化服务数据产品的架构。"
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
哈佛、MIT联合研究揭示人类语言理解的神经机制,发现大脑通过"信息出口"将语言从核心系统传递至专业脑区实现深度理解。研究提出浅层与深层理解的区别,为人工智能发展提供重要启示,表明真正智能需要多系统协作而非单一优化。该发现可能改变我们对语言认知的理解。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
腾讯混元等团队开发出革命性的AI视频生成自我评判系统PAVRM和训练方法PRFL,让AI能在创作过程中实时评估和改进视频质量,无需等到完成才反馈。该技术使视频动态表现提升56%,人体结构准确性提升21.5%,训练效率提升1.4倍,为AI视频生成质量带来质的飞跃。