11月18日,2025 OceanBase年度发布会在北京召开。
作为官宣“DataxAI”后的第一年,OceanBase在这次大会上集中释放了他们对于AI原生数据库的思考,以及面向AI的一系列技术和产品。
我们在现场看到了OceanBase首个一体化融合版本4.4版本的正式发布,以及面向AI的seekdb数据库的发布,与此同时,我们也看到了基于混合搜索的PowerRAG智能文档解析框架、PowerMem分层记忆架构的开源。
OceanBase CTO杨传辉说,“数据库领域技术范式已经从原来应用服务,慢慢延伸到AI服务,这其中,混合搜索正在成为AI原生数据库的‘分水岭’。”
OceanBase CEO杨冰说,“AI时代,让我们离‘世界级数据库’的梦想更近了一些。”

01 正确性很重要
作为OceanBase的十五周年年度发布会,今年的发布会有些不同。
我们在现场看到,在上午的主论坛上,OceanBase这次是率先将客户请上了台,分别由高德地图、平安人寿、爱奇艺、中国联通等各领域代表分享他们的数据库应用历路、数智化转型经历,以及OceanBase为这些企业在业务上带来的变化。
以如今火爆的视频行业为例,每部视频上线都会经历立项、预算、宣发、拍摄、生产、编解码运营、上线,以及在线售卖这样复杂的过程,以往长视频时代,一年会有上百部视频上线,而随着短视频的兴起,每年上线的视频数量从上百部一直飙升到了上万部。
为了支撑如此庞大的新业务需求,就需要在技术上寻求突破。
这些问题,也正是负责中台产品研发的爱奇艺高级总监张冲需要思考的问题。
张冲在大会上指出,爱奇艺在2011年上线的会员产品中的卡券,在过往14年里经历了五个大的版本迭代,已经累计拥有百亿规模数据量,形成了复杂的技术架构。
例如,当时在爱奇艺的数据架构中,TP业务基于MySQL,AP业务则是基于Elasticsearch,在数据流服务中需要经历MySQL到Elasticsearch(ES)的准实时同步,甚至也需要进行定期任务归档清理,也是由此,这套数据架构中的每个节点都需要投入大量的精力进行维护。

据张冲透露,“在这套数据架构中,整个技术需求带来的带来的投入占比最高甚至超过了整个产品研发投入的80%。”
大量数据同步维护需要额外的RMQ等非必要组件,准实时性分析延时达到分钟级,统计分析准确率低,ES清理归档代价较高、Reindex开销较大,这一系列业务痛点,让爱奇艺在进行第六代卡券研发时,希望可以有一个TP、AP一体化,不需要花精力去处理异构数据,可以尽量少依赖底层的湖仓这类重型产品,同时又可以实现降本增效的数据库产品。
张冲当时在进行市场调研中发现,OceanBase的数据库产品天生具备TP、AP融合的一体化特性,通过多副本原生分布式形态,又可以很简单地实现从同城双活到异地多活的架构升级,于是决定面向OceanBase进行数据迁移。
在AP业务经过全量表由ES到OceanBase集群迁移后,AP业务实现了秒级延时,存储压缩高达75%,整体TCO也下降了60%;在TP业务经过MySQL向OceanBase集群迁移后,不仅实现了存储的弹性伸缩,TP业务存储成本也下降了80%。
如今爱奇艺的第六代卡券技术架构更简单了,简单到只有计算和存储,这其中,高并发、高可用、数据治理、低成本等方面的技术复杂性都被浓缩到了OceanBase一体化产品中。
爱奇艺基于OceanBase的技术转型,只是OceanBase这些年通过技术工程化优势服务产业的一个缩影。
回顾过去十五年,杨冰特别强调的是两个关键词,一个是工程化,一个是正确性。
就工程化而言,杨冰指出,数据库是一个非常复杂的系统,所有复杂系统对工程化要求都很高,既需要有优秀的顶层设计,又需要基于原子化结构一层一层向上搭建,每一部分的原子化都要足够简单、足够可靠。
OceanBase研发团队正是基于这样的理解,从最基本的原子化结构,将数据结构、基础算法等基础单元打磨好后进行有机结合,由此支撑起这样一套复杂的系统。
就正确性而言,则是自成立之初就刻在了OceanBase团队骨子里的文化基因。
早期脱胎于阿里集团和蚂蚁集团的OceanBase,本就需要具备金融级稳定性,在2015年前后完成核心业务替代过程中,花费了大量精力在干“正确性”这件事——当时在数据库应用过程中,但凡涉及数据转移,OceanBase团队都要进行主备之间或多个副本之间的数据校验。
据杨冰透露,“为了解决‘正确性’问题,OceanBase代码中,有50%以上的代码都在做容错或异常处理,这在生产级系统中是罕见的。”
正因如此,“不相信任何硬件和软件,只相信自己,”成了OceanBase内部一条延续至今的铁律,也成了OceanBase可靠性、稳定性的基础。
02 AI原生数据库,OB的设计思路
2025年4月27日,OceanBase正式对外发布了DataxAI的战略,人工智能由此被写入OceanBase企业战略中。
那么,在过去这一年里,OceanBase有打造出怎样的AI数据库产品?
seekdb,正是OceanBase给出的答案。

seekdb是OceanBase在这次大会上首发的开源数据库产品,准确来说,是AI原生数据库产品。
杨冰在大会上指出,“seekdb不是传统数据库的功能叠加,而是专为AI时代重构的AI原生数据库,它继承OceanBase的代码和设计理念,更轻量、更敏捷,目标是成为大模型与私有数据融合计算的‘实时入口层’。”
在会后接受媒体采访时,杨冰对于这一产品还给出了一个形象的比喻,“OceanBase数据库会用增程式方式逐渐将AI能力不断加进来,而seekdb更像是纯电动化方式,以AI原生方式更快速、轻量化探索AI原生数据库的可能性。”
据悉,seekdb支持向量、全文、标量及空间地理数据的统一混合搜索,深度融合了AI推理与数据处理,并兼容Hugging Face、LangChain等30余种主流AI框架,开发者只需要三行代码,就可以快速构建知识库、智能体等AI应用。

本质上,seekdb可以称得上是OceanBase一款战略级产品,一款为了加速面向AI创新,面向开发者打造的一款AI原生的混合搜索开源数据库。
在这款产品背后,还藏着OceanBase一个更大的野心——定义AI原生数据库。
就AI原生数据库,杨传辉给出的定义是,“面向Agent多模混合搜索数据库。”
杨传辉在大会上指出,“在AI时代,数据库除了要处理结构化数据,还需要更多去处理半结构化,甚至无结构化的数据,数据库除了是做关系模型,还需要做Json处理半结构化数据,或者针对无结构化数据建立各种语义索引,例如向量索引、图索引、全文索引等,这就需要我们有一套基于结构化、半结构化,以及无结构化数据的各种索引之上的混合搜索引擎。”
正因如此,杨传辉认为,“向量数据库只是AI数据库的初级阶段,能否支持混合搜索将会成为AI数据库的‘分水岭’。”
不过,在AI时代,数据库既有变迁,也有不变。
杨传辉认为,“变的是面向Agent的多模混合搜索复杂的出现,不变的则是一体化架构带来的核心技术能力。”

杨冰在大会上同样指出,一体化数据库依然会是未来构建企业面向AI时代的数据架构的数据底座。
这样的一体化被杨冰拆解为三个方面:
一体化架构,从单机分布式到多云原生,满足AI应用快速迭代;
一体化存储,从结构、半结构到非结构化数据,支持AI多模数据存储;
一体化负载,从数据生产、分析到混合搜索,支撑AI原生多元负载。
实际上,基于这样理念打造的,不仅仅是seekdb,还有此次大会上正式对外发布的OceanBase首个一体化融合版本4.4版本。

杨传辉在会后接受媒体采访时告诉我们,“seekdb是基于Apache2.0,采用全开源模式和开源社区的开发者们一起快速演进、快速探索的AI原生数据库,seekdb会快速迭代出很多AI原生功能,这些功能OceanBase也会很快地进行跟进。”
此外,同样是在这次大会上,围绕多模混合搜索数据库,我们看到OceanBase发布了一系列配套产品,这其中既有PowerRAG、PowerMem这样的配套工具,也有MaaS平台、OceanBase AI Stack智能一体机。
这一系列技术、产品和解决方案,构成了OceanBase面向AI原生数据库的全栈AI初步探索。
03 借力AI,走向全球
在OceanBase十五周年之际,我们发现,OceanBase开始加快全球化步伐。
杨冰认为,要全球化,必然要做好三件事:
经历世界级挑战、得到顶级客户的认可、在全球主流市场持续拓展业务。
这三件事,又恰巧与OceanBase的成长经历不谋而合。
OceanBase出生之初面临的就是“双十一”这样世界级的难题,而在随后的发展过程中,OceanBase又从原本擅长的电商、金融领域,不断向交通、能源、医疗、人社、运营商等领域突破。
例如,在高增长的智能制造领域,OceanBase服务了宁德时代的GMC电池指标系统升级,单次处理效率从2分钟缩短到30秒,让宁德时代电池电芯流转效率大幅增加;

再如,在汽车的实时分析场景,OceanBase服务了零跑汽车的“零小跑”营销系统升级,商机时效提升了20倍,解决了零跑汽车“数据查询时效”瓶颈。
值得注意的是,OceanBase服务的这些中国TOP级企业,正在成为全球顶级玩家,这让这些企业背后的服务商OceanBase的能力开始在全球得到“认证”。
与此同时,我们还看到,OceanBase在大力打造全球经销体系。
据杨冰在大会上公布的数据显示,“2025年,OceanBase在专有云方面的收入已经有70%来自于伙伴,公有云方面的收入有30%来自于伙伴,并实现了300%的年增速。”

在此次发布会上,OceanBase还特别官宣了与用友的战略合作。
杨冰告诉我们,“应用开发商生态对数据库来说非常重要,而用友在中国的地位类似全球市场中的SAP,通过这样的落地,能够让OB更广泛地渗透到更多的通用场景当中,实际上,我们也在和海外同类的ERP厂商在做对接。”

一边塑造全球品牌影响力,一边构建全球服务体系,据大会上公布数据显示,实际上,自2020年商业化以来,OceanBase全球客户数已突破4000家,连续五年年均增速超100%。
这其中,OceanBase的技术和产品已深入金融、政务、通信、零售、制造、互联网等十余领域,服务覆盖16个国家和地区、60多个地域、240多个可用区。
也是在这样的背景下,全球迎来了人工智能的时代拐点,在这个拐点来临之际,全球计算范式、数据能力经历着一场深刻的变革,这时,全球数据库产业将再次来到一个新起点。
杨冰在大会上也特别指出,“AI时代,让我们离‘世界级数据库’的梦想又近了一些。”
好文章,需要你的鼓励
香港科技大学团队发表重要研究,开发GIR-Bench测试基准评估统一多模态AI模型的推理与生成能力。研究发现即使最先进的AI模型在理解与生成之间也存在显著差距,无法有效将推理过程转化为准确的视觉生成,为AI行业发展提供重要警示。
Meta超级智能实验室联合麻省理工学院开发了SPG三明治策略梯度方法,专门解决扩散语言模型强化学习训练中的技术难题。该方法通过上下界策略为AI模型提供精确的奖惩反馈机制,在数学和逻辑推理任务上实现了显著性能提升,为AI写作助手的智能化发展提供了新的技术路径。