日立重振的 Pentaho 业务对其数据目录和优化产品进行了全面改造,以使其和客户数据适应 AI 时代的需求。
该数据目录经过重新设计,旨在提供 “增强版的数据市场体验”,帮助高管、业务用户和数据科学家更轻松地查找经过精心策划和可信的数据集,用于日常操作和战略决策。
该产品还与 Okta 和 Active Directory 实现了更深入的集成,以改善策略访问和安全措施,尤其是防止关键信息被无意中传递给模型后扩散到全球。
Pentaho 产品管理高级总监 Kunju Kashalikar 表示,目标是让数据科学家更容易查找信息,同时确保这些数据集仅对合适的人员或应用程序开放,并对关键信息(例如信用详情或 PII)进行适当的屏蔽。
此外,该产品还改进了数据传递到 Python IDE 以及其他机器学习测试和部署工具的能力。这意味着用户可以轻松构建数据工作流,从数据发现、摄取、训练到审查和部署全流程都在可管理、可审计的方式下完成,Kashalikar 如是说。
数据优化与分层存储功能也经过重新设计,更好地支持结构化和非结构化数据在归档、迁移以及基于策略的生命周期管理过程中的应用。
数据流? Pentaho。往返移动您的数据
随着各家公司致力于将 AI 推向生产环境,建立数据管道变得越来越重要,Snowflake 和 Databricks 等公司也投入了大量精力简化用户这一过程。
但 Kashalikar 表示:“我所见到的,尤其是在中大型企业中,没有一家组织只采用单一的数据技术。我遇到的客户同时使用 Databricks 和 Snowflake,现在还引入了 Apache Iceberg。在某些情况下,他们还在 Oracle、Salesforce、SAP 和 AWS 中保留数据。”
他表示,Pentaho 的目标是为这些技术提供统一的管理界面,“无论您的数据位于 Snowflake 还是 Databricks,最终用户都能获得一致的使用体验。”
此外,Kashalikar 表示,公司还致力于构建更完善的数据分类体系,帮助企业全面了解其结构化和非结构化数据的全景,从而让企业能够为 AI 选用合适的数据,同时识别潜在的问题隐患。
例如,在金融公司中,这可能意味着要了解“您的 SQL server 中存储着这类数据,但我们也可以告知您,在 SharePoint 中某个特定用户的文件夹里,我们发现了大量的抵押贷款文件。也许这些文件的存在是合理的,也许并非如此……”
大约一年半前,日立重新激活了 Pentaho 品牌。Pentaho 在原有的 ETL 和分析业务基础上,增加了数据目录、数据质量以及数据优化工具。这些工具可在本地和云环境中运行,适用于文档和结构化数据。
虽然 Pentaho 宣称自己是一个统一的平台,但客户可以自由组合使用各项工具。Kashalikar 说:“我们知道很多客户已经购买了这五种工具中的一种,并且不愿意放弃已有的投资。”
“因此,我们希望能够开放地与其他工具集成,同时在使用了两款或更多我们的工具时,提供一流的集成体验。”
好文章,需要你的鼓励
Warp成立于2021年,致力于通过技术赋能的物流网络优化企业供应链。该公司现计划使用机器人自动化其仓储网络,进一步提升供应链效率。公司在洛杉矶测试仓库安装摄像头,利用计算机视觉技术创建数字孪生环境进行实验。经过测试,Warp成功部署改装后的现成机器人处理货物装卸和存储。公司刚完成1000万美元A轮融资,计划今年开始在核心网络城市部署机器人技术。
斯坦福大学研究团队开发出SynthesizeMe方法,能让AI通过观察用户的选择自动学习个人偏好,无需填写复杂资料。该方法通过三步流程分析用户互动,生成个性化画像,在理解用户偏好方面准确率提升4.4%。研究还构建了PersonalRewardBench测试平台,为AI个性化能力评估提供标准。这项技术有望应用于智能客服、教育和内容推荐等领域。
Continuity Software研究发现,企业存储和数据保护设备在信息安全方面存在严重盲点,使公司数据面临危险暴露。调查涵盖300个环境中超过1万台设备,发现平均每台设备存在10个漏洞,其中一半为高风险。最常见漏洞涉及身份认证管理和未修复的CVE。许多设备仍使用出厂默认密码,缺乏多因素认证。研究还发现勒索软件防护功能未启用或配置错误的情况。
普渡大学研究团队首次提出AI模型免疫技术,通过条件数理论让模型能够抵抗恶意训练。该方法在保持正常功能的同时,显著增加恶意微调的难度,实验显示免疫效果可达40倍以上。这项突破性研究为AI安全提供了"预防胜于治疗"的新思路,开创了模型免疫这一全新技术方向。