日立重振的 Pentaho 业务对其数据目录和优化产品进行了全面改造,以使其和客户数据适应 AI 时代的需求。
该数据目录经过重新设计,旨在提供 “增强版的数据市场体验”,帮助高管、业务用户和数据科学家更轻松地查找经过精心策划和可信的数据集,用于日常操作和战略决策。
该产品还与 Okta 和 Active Directory 实现了更深入的集成,以改善策略访问和安全措施,尤其是防止关键信息被无意中传递给模型后扩散到全球。
Pentaho 产品管理高级总监 Kunju Kashalikar 表示,目标是让数据科学家更容易查找信息,同时确保这些数据集仅对合适的人员或应用程序开放,并对关键信息(例如信用详情或 PII)进行适当的屏蔽。
此外,该产品还改进了数据传递到 Python IDE 以及其他机器学习测试和部署工具的能力。这意味着用户可以轻松构建数据工作流,从数据发现、摄取、训练到审查和部署全流程都在可管理、可审计的方式下完成,Kashalikar 如是说。
数据优化与分层存储功能也经过重新设计,更好地支持结构化和非结构化数据在归档、迁移以及基于策略的生命周期管理过程中的应用。
数据流? Pentaho。往返移动您的数据
随着各家公司致力于将 AI 推向生产环境,建立数据管道变得越来越重要,Snowflake 和 Databricks 等公司也投入了大量精力简化用户这一过程。
但 Kashalikar 表示:“我所见到的,尤其是在中大型企业中,没有一家组织只采用单一的数据技术。我遇到的客户同时使用 Databricks 和 Snowflake,现在还引入了 Apache Iceberg。在某些情况下,他们还在 Oracle、Salesforce、SAP 和 AWS 中保留数据。”
他表示,Pentaho 的目标是为这些技术提供统一的管理界面,“无论您的数据位于 Snowflake 还是 Databricks,最终用户都能获得一致的使用体验。”
此外,Kashalikar 表示,公司还致力于构建更完善的数据分类体系,帮助企业全面了解其结构化和非结构化数据的全景,从而让企业能够为 AI 选用合适的数据,同时识别潜在的问题隐患。
例如,在金融公司中,这可能意味着要了解“您的 SQL server 中存储着这类数据,但我们也可以告知您,在 SharePoint 中某个特定用户的文件夹里,我们发现了大量的抵押贷款文件。也许这些文件的存在是合理的,也许并非如此……”
大约一年半前,日立重新激活了 Pentaho 品牌。Pentaho 在原有的 ETL 和分析业务基础上,增加了数据目录、数据质量以及数据优化工具。这些工具可在本地和云环境中运行,适用于文档和结构化数据。
虽然 Pentaho 宣称自己是一个统一的平台,但客户可以自由组合使用各项工具。Kashalikar 说:“我们知道很多客户已经购买了这五种工具中的一种,并且不愿意放弃已有的投资。”
“因此,我们希望能够开放地与其他工具集成,同时在使用了两款或更多我们的工具时,提供一流的集成体验。”
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。