日立重振的 Pentaho 业务对其数据目录和优化产品进行了全面改造,以使其和客户数据适应 AI 时代的需求。
该数据目录经过重新设计,旨在提供 “增强版的数据市场体验”,帮助高管、业务用户和数据科学家更轻松地查找经过精心策划和可信的数据集,用于日常操作和战略决策。
该产品还与 Okta 和 Active Directory 实现了更深入的集成,以改善策略访问和安全措施,尤其是防止关键信息被无意中传递给模型后扩散到全球。
Pentaho 产品管理高级总监 Kunju Kashalikar 表示,目标是让数据科学家更容易查找信息,同时确保这些数据集仅对合适的人员或应用程序开放,并对关键信息(例如信用详情或 PII)进行适当的屏蔽。
此外,该产品还改进了数据传递到 Python IDE 以及其他机器学习测试和部署工具的能力。这意味着用户可以轻松构建数据工作流,从数据发现、摄取、训练到审查和部署全流程都在可管理、可审计的方式下完成,Kashalikar 如是说。
数据优化与分层存储功能也经过重新设计,更好地支持结构化和非结构化数据在归档、迁移以及基于策略的生命周期管理过程中的应用。
数据流? Pentaho。往返移动您的数据
随着各家公司致力于将 AI 推向生产环境,建立数据管道变得越来越重要,Snowflake 和 Databricks 等公司也投入了大量精力简化用户这一过程。
但 Kashalikar 表示:“我所见到的,尤其是在中大型企业中,没有一家组织只采用单一的数据技术。我遇到的客户同时使用 Databricks 和 Snowflake,现在还引入了 Apache Iceberg。在某些情况下,他们还在 Oracle、Salesforce、SAP 和 AWS 中保留数据。”
他表示,Pentaho 的目标是为这些技术提供统一的管理界面,“无论您的数据位于 Snowflake 还是 Databricks,最终用户都能获得一致的使用体验。”
此外,Kashalikar 表示,公司还致力于构建更完善的数据分类体系,帮助企业全面了解其结构化和非结构化数据的全景,从而让企业能够为 AI 选用合适的数据,同时识别潜在的问题隐患。
例如,在金融公司中,这可能意味着要了解“您的 SQL server 中存储着这类数据,但我们也可以告知您,在 SharePoint 中某个特定用户的文件夹里,我们发现了大量的抵押贷款文件。也许这些文件的存在是合理的,也许并非如此……”
大约一年半前,日立重新激活了 Pentaho 品牌。Pentaho 在原有的 ETL 和分析业务基础上,增加了数据目录、数据质量以及数据优化工具。这些工具可在本地和云环境中运行,适用于文档和结构化数据。
虽然 Pentaho 宣称自己是一个统一的平台,但客户可以自由组合使用各项工具。Kashalikar 说:“我们知道很多客户已经购买了这五种工具中的一种,并且不愿意放弃已有的投资。”
“因此,我们希望能够开放地与其他工具集成,同时在使用了两款或更多我们的工具时,提供一流的集成体验。”
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Coursera在2025年连接大会上宣布多项AI功能更新。10月将推出角色扮演功能,通过AI人物帮助学生练习面试技巧并获得实时反馈。新增AI评分系统可即时批改代码、论文和视频作业。同时引入完整性检查和监考系统,通过锁定浏览器和真实性验证打击作弊行为,据称可减少95%的不当行为。此外,AI课程构建器将扩展至所有合作伙伴,帮助教育者快速设计课程。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。