日立重振的 Pentaho 业务对其数据目录和优化产品进行了全面改造,以使其和客户数据适应 AI 时代的需求。
该数据目录经过重新设计,旨在提供 “增强版的数据市场体验”,帮助高管、业务用户和数据科学家更轻松地查找经过精心策划和可信的数据集,用于日常操作和战略决策。
该产品还与 Okta 和 Active Directory 实现了更深入的集成,以改善策略访问和安全措施,尤其是防止关键信息被无意中传递给模型后扩散到全球。
Pentaho 产品管理高级总监 Kunju Kashalikar 表示,目标是让数据科学家更容易查找信息,同时确保这些数据集仅对合适的人员或应用程序开放,并对关键信息(例如信用详情或 PII)进行适当的屏蔽。
此外,该产品还改进了数据传递到 Python IDE 以及其他机器学习测试和部署工具的能力。这意味着用户可以轻松构建数据工作流,从数据发现、摄取、训练到审查和部署全流程都在可管理、可审计的方式下完成,Kashalikar 如是说。
数据优化与分层存储功能也经过重新设计,更好地支持结构化和非结构化数据在归档、迁移以及基于策略的生命周期管理过程中的应用。
数据流? Pentaho。往返移动您的数据
随着各家公司致力于将 AI 推向生产环境,建立数据管道变得越来越重要,Snowflake 和 Databricks 等公司也投入了大量精力简化用户这一过程。
但 Kashalikar 表示:“我所见到的,尤其是在中大型企业中,没有一家组织只采用单一的数据技术。我遇到的客户同时使用 Databricks 和 Snowflake,现在还引入了 Apache Iceberg。在某些情况下,他们还在 Oracle、Salesforce、SAP 和 AWS 中保留数据。”
他表示,Pentaho 的目标是为这些技术提供统一的管理界面,“无论您的数据位于 Snowflake 还是 Databricks,最终用户都能获得一致的使用体验。”
此外,Kashalikar 表示,公司还致力于构建更完善的数据分类体系,帮助企业全面了解其结构化和非结构化数据的全景,从而让企业能够为 AI 选用合适的数据,同时识别潜在的问题隐患。
例如,在金融公司中,这可能意味着要了解“您的 SQL server 中存储着这类数据,但我们也可以告知您,在 SharePoint 中某个特定用户的文件夹里,我们发现了大量的抵押贷款文件。也许这些文件的存在是合理的,也许并非如此……”
大约一年半前,日立重新激活了 Pentaho 品牌。Pentaho 在原有的 ETL 和分析业务基础上,增加了数据目录、数据质量以及数据优化工具。这些工具可在本地和云环境中运行,适用于文档和结构化数据。
虽然 Pentaho 宣称自己是一个统一的平台,但客户可以自由组合使用各项工具。Kashalikar 说:“我们知道很多客户已经购买了这五种工具中的一种,并且不愿意放弃已有的投资。”
“因此,我们希望能够开放地与其他工具集成,同时在使用了两款或更多我们的工具时,提供一流的集成体验。”
好文章,需要你的鼓励
OpenAI明确表示要成为互联网一切事物的主导界面。AI智能体正在改变用户的数字习惯,从健康记录分析到购物指导,ChatGPT已经在多个领域扩展影响力。用户快速采用AI工具,但企业和生态系统的适应速度滞后。电商领域的权力分配尚不明确,用户偏好AI驱动的答案优先体验,品牌则推动生成式引擎优化。研究旨在了解用户与企业在AI变革中的适应差异。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。