被企业用于数据分析和增强人工智能负载运算的流行开源软件 OpenSearch 正在迎来一次重大更新。
负责该软件开发的中立组织 OpenSearch 软件基金会( Amazon Web Services Inc. )刚刚宣布推出 OpenSearch 3.0,此版本带来了显著的性能提升以及全新的向量搜索功能,旨在加速人工智能的发展。
OpenSearch 项目最初由 Amazon Web Services Inc. 创立,并于 2021 年作为一个社区驱动的 Elasticsearch 替代方案推出。该项目的建立是针对 Elastic N.V. 决定将原本开源的 Elasticsearch 引擎从 Apache 2 许可证切换为更为严格的 Server Side Public License( 被视为反竞争 )而作出的回应。
OpenSearch 是从 Amazon Elasticsearch Service 分支出来的,并以 Elastic 放弃的同一 Apache 2 许可证发布。它是一个功能强大的分布式搜索及分析引擎,旨在高效处理海量数据,并提供快速准确的搜索查询结果。
它常被比作一种数字图书管理员,能组织、编目、检索信息并从庞大数据集中挖掘洞见,但与大多数人类图书管理员不同的是,它能够实时完成这些任务。OpenSearch 被广泛应用于日志分析、搜索引擎构建和数据分析等领域。
据基金会介绍,从今天起推出的 OpenSearch 3.0 版本在 OpenSearch 1.3 的基础上进行了升级,其性能提升高达 9.5 倍。
平台中还新增了数十项功能,旨在便捷 AI 应用,如生成式 AI 聊天机器人、基于检索的生成、混合搜索及推荐引擎。基金会表示,这些应用高度依赖于以数学表示形式存储非结构化信息的向量数据库,这使得算法能够更容易地在海量数据集中识别模式。虽然向量数据库可以显著提升 AI 的性能,但在处理数十亿个向量时,往往面临速度和规模的问题。
借助 GPU 加速实现更高速的向量搜索
OpenSearch 3.0 旨在通过引入 GPU 加速的 OpenSearch 向量引擎来解决这些扩展性问题。作为一项实验性新功能,它借助 Nvidia Corp. 最先进的 GPU 强化大规模向量数据负载下的搜索性能,同时减少索引构建时间,从而降低运营成本。
此外,OpenSearch 现获得 Anthropic PBC. 的 Model Context Protocol 支持,该协议提供了标准化接口,用于将大语言模型与外部数据源及其他开发工具集成。新版本还新增了旨在通过消除冗余向量数据源来降低存储消耗的功能。
除了提升 OpenSearch 的向量处理性能外,基金会还在优化平台数据摄取、传输及管理方式方面做出了巨大努力。例如,新版本新增对 gRPC Remote Procedure Call 框架的支持,作为另一项实验性功能,实现了客户端、服务器和节点之间更高效的数据传输。
其他新增功能包括基于拉取的数据摄取方式,使 OpenSearch 能更好地控制系统中的数据流,以及从 Apache Kafka 等流平台“拉取”数据的能力。读写分离有助于提升索引构建的效率,而整合 Apache Calcite 据称能使查询构建与数据探索更加直观。
最后,新版本还强化了 OpenSearch 的核心基础设施,通过升级至 Lucene 10 提升其搜索与索引功能,并支持 Java 21 最低运行时,使用户能够享受现代编程语言功能及 Java 代码库性能的改进。
基金会理事会主席 Carl Meadows 表示,由于对更先进 AI 应用的强劲需求推动,企业搜索市场预计到 2030 年将增长至超过 89 亿美元。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。