初创公司Geniez宣布结束隐身模式,专注开发连接大语言模型和智能体与大型机的软件,实现AI实时数据提取应用。
大语言模型和智能体通常查询x86服务器以及存储阵列或公有云中的非结构化数据。它们使用现有搜索方法来查看事务数据库中的结构化数据,以及知识图谱(例如Neo4j的产品)。但是,存储在IBM封闭大型机生态系统中的海量结构化和非结构化数据一直无法被访问,除了IBM自己的watsonx AI设施及其watsonx数据网关。
Geniez正在为非IBM大语言模型和智能体开放大型机数据存储的实时访问能力。
该公司由首席执行官Gil Peleg和Dan Shprung创立,两人此前都参与了Model9项目——这家以色列初创公司于2023年4月被BMC收购。两人随后加入了BMC的AMI组织。
Peleg向媒体表示:"我们要为大型机带来生成式AI,就像在Model9中我们为大型机引入对象存储一样。"
他补充道:"我们在Model9开始时积累了大量经验...但我们没有意识到市场的力量和动态、庞大的客户群、强大的现有厂商,以及客户对IBM的深度依赖程度和促使他们改变的难度。"
全球约2万到2.5万家大型机客户严重依赖他们的机器和记录系统,大型机迁移并不像某些人认为的那样频繁。这些系统上的数据对于拥有大型机的银行、保险公司、信用卡供应商、航空公司、航运公司、零售商和制造商来说至关重要。这些企业都了解AI技术,并明白他们使用的大语言模型和智能体能够访问的数据越多,获得的响应就越好。
但许多企业不愿意将数据从大型机上迁移出来实现这一目标。因此数据必须被提取。但通过什么方式?大型机有无数种数据源,各自具有独特的数据库协议、记录格式和访问方法。建立任何外部访问都需要编写、测试和在大型机上执行针对目标数据源的特定代码。提供这些点对点的提取、转换和加载(ETL)程序可能需要数月的努力。
现有的ETL程序可以将大型机数据移入数据湖,但数据不是实时的。Geniez声称提供的是一套现成的实时数据提取连接器集合——可以称之为大型机数据机器人。Peleg表示,它提供对大型机数据源的实时直接访问,支持的数据源包括:DB2、IMS、MQ、VSAM和数据集。支持的大语言模型和智能体包括Meta(llama)、Anthropic、OpenAI、Gemini和Amazon Bedrock的产品。
Geniez声称其软件具有大型机级别的可靠性、可用性和安全性,支持RACF控制和端到端加密。还具备调试、可观测性、治理和审计功能,以及适用于任何地方运行的Python应用程序的标准SDK。
Geniez已有可演示的原型产品,Peleg表示:"我们已经完成了来自美国顶级投资者以及Model9一些前投资者的种子轮融资。"
Q&A
Q1:Geniez数据机器人是什么?它解决了什么问题?
A:Geniez数据机器人是一套实时数据提取连接器,专门解决大语言模型和智能体无法访问IBM大型机数据的问题。它能够实时连接大型机与AI系统,让企业的大语言模型和智能体直接访问大型机中的关键业务数据。
Q2:为什么企业不直接把大型机数据迁移到其他平台?
A:全球2万到2.5万家大型机客户严重依赖这些系统作为记录系统,大型机迁移并不频繁。对于银行、保险公司、航空公司等企业来说,大型机数据极其关键,直接迁移风险太大,因此需要通过技术手段实现数据提取。
Q3:Geniez支持哪些大型机数据源和AI平台?
A:Geniez支持的大型机数据源包括DB2、IMS、MQ、VSAM和数据集等。支持的大语言模型和智能体包括Meta的llama、Anthropic、OpenAI、Gemini和Amazon Bedrock等主流AI平台,具备大型机级别的安全性和可靠性。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。