解锁对象存储+TP数据库,OceanBase快人一步 原创

对于TP工作负载,OceanBase共享存储产品可以将存储成本降低一半。

解锁对象存储+TP数据库,OceanBase快人一步

作者 | 金旺

来源 | 科技行者

4月27日,OceanBase CEO杨冰发布全员信,宣布OceanBase将全面进入AI时代,打造“Data×AI”核心能力,建设AI时代的数据底座

“Data×AI”由此正式被写入OceanBase的公司战略。

这一战略公布不到一个月,OceanBase第三届开发者大会就在广州召开。

大会上,OceanBase CTO杨传辉就这一战略解释称,“本质上我们是要做Data,用AI,实现Data与AI的融合。”

关于这一战略中的另一个关键信息——不是数据库,而是数据底座,杨传辉表示,“希望通过一体化的产品、一体化的引擎,同时处理TP、AP和AI的混合负载。”

也是在这场开发者大会上,OceanBase不仅发布了首个面向AI的应用产品——PowerRAG,还再次升级一体化架构,发布了业内首款深度集成对象存储与TP数据库的“共享存储”产品。

作为OceanBase第三次技术架构升级特别打造的产品,共享存储为数据库产业带来了怎样的创新思路?

OceanBase又在打造怎样的数据底座?

01 AI应用爆发,亟需存储技术革新

2025年1月20日,开源大模型DeepSeek R1的面世,让大模型应用产业落地开始加速。

OceanBase团队同样感受到了DeepSeek对大模型应用产业落地带来的加速作用,杨传辉在接受媒体采访时透露,“DeepSeek的准确率和成本相较之前的开源大模型有了质的提升,我们由此判断,未来五年,大模型应用场景会迎来大爆发。”

以大模型为代表的AI应用爆发,对数据基础设施也提出了更高的要求。

首先是数据量的暴增。

据IDC预测数据显示,预计2028年全球新生成数据量规模将达到393.8ZB,相较于2018年增长9.8倍,从2024到2028五年间生成的数据量将至少是过去10年生成的数据总量的2.2倍。

解锁对象存储+TP数据库,OceanBase快人一步

如此海量的数据,亟需更低成本的数据存储技术。

其次是数据模态的多样化。

2023年9月25日,OpenAI正式官宣,ChatGPT新增语音、图像对话功能,更具产业价值的多模态大模型已经成为人工智能技术竞争焦点。

而随着大模型从NLP走向多模态,原始训练数据集也从纯文本变成了文本、图片、语音、视频等多种数据模态。

解锁对象存储+TP数据库,OceanBase快人一步

数据模态的多样化,要求数据库能够更高效地存储半结构化、非结构化数据。

如何高效存储海量多模态数据,就成了在大模型应用场景迎来大爆发前,面向AI时代的数据库厂商必须考虑的问题。

这时,已经被广泛应用于分析型数据库(AP)、企业存储备份、归档和数据湖等场景的对象存储技术成了解决问题的关键。

所谓对象存储,是一种将数据存储为“对象”的数据存储方法,不仅具有高可靠、低成本、可无限扩展等特性,更重要的是,对象存储已经成为云上海量数据存储的主流方案,诸如图片、视频等信息的非结构化、半结构化原始数据,正是存储在对象存储中。

这让对象存储成了构建AI时代数据底座的选择之一。

然而,却至今未能在事务型数据库(TP)中得到广泛应用。

据杨传辉在第三届OceanBase开发者大会上介绍,“实际上,业内已经有很多面向对象存储的多云原生数据库,但这些数据库往往因为无法做到低延迟、实时写入,只能在AP中应用对象存储;而能够将对象存储应用到TP的云原生数据库,又往往无法将对象存储构建在共享存储之上,性价比无法做到极致。”

是否能够在TP场景下推出一款基于对象存储的共享存储产品,也成了OceanBase在大模型技术风起云涌这两年一直在思考的一个问题。

02 让TP场景的共享存储成为可能

什么是共享存储?

按节点之间资源共享模式,数据库有Shared Nothing、Shared Storage两类主流存储架构。

Shared Nothing是指每个节点都拥有独立的计算和存储资源,彼此独立运行,没有共享存储或计算资源,数据存储在不同的节点上,节点之间通过网络进行通信,这种架构通常具有高性能、低延时特性

Shared Storage,即共享存储,是指多个计算节点共享一个存储集群,每个节点可以访问共享存储上的数据,这种架构简化了数据访问,节省了存储空间并保证了数据一致性,但性能会存在一定损失

由于Shared Nothing架构天然具备高性能、低延时,可以做到实时写入,主流TP数据库往往采用的正是这一架构。

OceanBase之所以能解决TP数据库无法支持对象存储的问题,源于其100%根自研的技术掌控力,包括存储引擎也是由团队自研的LSM-Tree引擎。

实际上,据杨传辉透露,“OceanBase早在六七年前就开始研发对象存储技术,并在两三年前开始构思在TP场景下的共享存储产品。”

OceanBase产品部总经理杨志丰是OceanBase的对象存储和共享存储整个研发过程的亲历者,他告诉我们,在这个过程中,OceanBase在针对共享存储的访问通路做了如下几个方面的优化:

首先,由于共享存储本身性能不高,这对缓存提出了很高的要求,OceanBase为此特别设计了一套由内存缓存、本地持久化缓存和对象存储三层构成的专为TP场景设计的多级缓存架构

解锁对象存储+TP数据库,OceanBase快人一步

相较而言,传统基于Shared Nothing架构的数据库,热点数据往往主要依赖内存缓存,在共享存储架构下,OceanBase增加了本地持久化缓存层缓存,优化了对象存储的访问延迟问题。

无论是缓存对象存储读出的数据、预读预热机制,还是缓存数据在节点间的数据同步机制,均确保了 TP、AP、KV多种负载下的性能与容灾恢复能力。

解锁对象存储+TP数据库,OceanBase快人一步

其次,OceanBase自研的LSM-Tree引擎具有天然适配“只追加、不修改”的对象存储特性,基于这一存储引擎设计的缓存架构很好地避免了因数据写入带来的缓存失效问题,提升了IOPS利用效率。

同样是基于LSM-Tree引擎,OceanBase团队在对象存储天然为大块顺序I/O优化、小I/O性能差且超过1万IOPS容易被限流的前提下,通过聚合小I/O、异步写入、读写路径优化、并发控制等深度工程手段,极大缓解了TP场景下频繁事务访问对底层存储带来的压力。

第三,OceanBase通过独特的持久化缓存弹性伸缩能力,进一步解决了TP场景下热点数据随业务波动而动态变化的问题

相较于业界普遍的固定缓存策略,OceanBase的本地缓存空间可随负载自动扩缩,保障高并发读写的同时,降低资源成本。

共享存储版本下,OceanBase还同步改造了日志系统。

在传统share-nothing三副本架构中,日志服务分布在每个副本内部。在新架构下,日志被抽象成一个独立服务,不仅实现更稳定的日志 I/O、日志的跨集群共享,还能进一步降低存储成果,提高资源利用率。

最后,OceanBase还优化了对象存储的访问链路——从 I/O 调度机制、缓存命中率、预取策略,到跨可用区的副本同步机制,全面压低延迟波动,确保TP 业务毫秒级响应的稳定性。

经过这一系列对对象存储访问通路的重构,OceanBase最终在5月17日的开发者大会上正式发布了共享存储产品,OB Cloud由此成为了业界首个在TP场景下支持对象存储的多云原生数据库

03 OceanBase的第三次技术架构升级

成立于2010年的OceanBase团队,在过去十五年里,OceanBase经历了两次重要技术升级:

第一次是2016年OceanBase 1.0版本的发布,在这一版本中,OceanBase团队解决了所有节点可读可写的问题;

第二次是2020年OceanBase 4.0版本的发布,在这一版本中,OceanBase团队在业内首次提出了单机分布式一体化架构,在一套系统中实现了分布式的扩展性和单机的功能和性能。

2025年,OceanBase迎来了第三次技术架构升级,杨传辉称这次技术架构升级为“多云原生”。

解锁对象存储+TP数据库,OceanBase快人一步

作为业界首个基于对象存储面向TP场景的多云原生数据库产品,OceanBase此次发布的共享存储产品也成了这次技术架构升级关键。

在此次开发者大会上,杨传辉特别就OceanBase工作负载由AWS的EBS模式迁移到S3对象存储进行了一次成本核算:

解锁对象存储+TP数据库,OceanBase快人一步

据AWS官网数据显示,EBS每GB每月使用成本为0.1美元,S3每GB每月使用成本为0.023美元。

以100TB数据存储为例,对于使用3份EBS的Shared Nothing架构而言,数据存储成本总计需要3万美元。

对于使用共享存储而言,它的成本分成两部分:

第一部分还是S3,总计需要2300美元;

第二部分是需要把热点数据缓存到本地需要的成本,假设3个副本,每个副本缓存1/3,缓存到本地的成本就是1万美元。

这样计算下来,使用共享存储的总成本约为1.2万美金。

由此可见,对于TP工作负载,假设每个副本缓存1/3的热点数据,OceanBase共享存储产品可以将存储成本降低一半

如果是对极致高可用没有强需求的AP工作负载,实际生产系统往往采用的是单副本模式,采用OceanBase共享存储产品则可以将存储成本降低近90%

然而,极致性价比只是OceanBase此次发布的共享存储产品的特性之一,这款产品的另外两个显著特性是Serverless和多云原生。

解锁对象存储+TP数据库,OceanBase快人一步

在Serverless方面,OceanBase这款共享存储产品支持存储和计算资源独立弹性伸缩,按量付费,由于支持Serverless式的资源调度,从而实现了存储不动、计算可弹的能力。

在多云原生方面,OceanBase这款共享存储产品全面支持Amazon S3、阿里云OSS等主流云服务及兼容S3协议的对象存储。

实际上,由于主流云厂商均已兼容S3协议,这意味着OceanBase共享存储产品已经能够支持大多数主流云服务,这为企业在多云、混合云环境下构建统一的数据基础设施提供更多可能。

不过,杨传辉也特别指出,“如果用户是应用在要求极为苛刻的核心业务场景,每个查询都需要再一两个毫秒内返回,这样的应用依然可以选择存算一体的Shared Nothing本地盘模式;如果是更看重平均延时或95%比例的请求延时的业务场景,则完全可以选择性价比更高的存算分离的共享存储方案。”

04 AI需要怎样的数据底座?

来自IDC预测数据显示,到2028年,整个AI市场规模相较于2022年预计将会增长400%,生成式AI市场份额预计在整个AI市场占比将达到39.5%。

IDC中国软件行业研究经理李凌霄指出,“无论是从市场侧反馈来看,还是从IDC内部研究来看,大家对于生成式AI技术发展的疑虑已经全部打消,对于生成式AI未来发展都持有着乐观态度。”

解锁对象存储+TP数据库,OceanBase快人一步

而生成式AI和大模型的快速发展,让数据库厂商也迎来了新机遇。

4月27日,OceanBase CEO杨冰发布全员信,宣布OceanBase将全面进入AI时代,打造“Data×AI”核心能力,建设AI时代的数据底座。

为什么OceanBase会提出这样一个“Data×AI”战略?

杨传辉告诉我们,“在AI时代,我们需要的是一个一体化的数据底座,它的底层需要实现单机分布式一体化,也需要实现云上云下一体化,这就是单机分布式一体化架构和多云原生架构。对于用户而言,他们需要的是一套数据库,一套可以统一支持TP、AP和AI工作负载数据底座。”

解锁对象存储+TP数据库,OceanBase快人一步

与此同时,“Data×AI”一体化数据底座实际上也是OceanBase一体化数据库的延伸,它的核心在于如何做好数据处理。

为了做好AI时代的数据处理,OceanBase一直在加强支持混合检索的向量引擎的研发,并在过去两年里将共享存储产品做到了TP生产级水准。

在接受媒体采访时,杨冰告诉我们,“很少有数据引擎能把TP架在对象存储上,我们在把这个难题攻克后,企业在技术栈层面存储AI需要的数据时,就可以在数据存储上统一到一套技术架构上。”

OceanBase坚持的上述一体化产品思路,为企业和开发者带来的最直接的好处是,在进行大模型应用开发时,开发者就可以通过一条SQL语句处理所有工作负载

2025年是OceanBase走过的第十五个年头,站在这一年的OceanBase开发者大会上展望未来十五年,杨传辉指出:

“未来十五年一定是一个AI大爆炸的时代,随着全世界对AI产品的不断打磨,我们也将成为AI时代的一体化数据底座。”

 

来源:至顶网人工智能频道

0赞

好文章,需要你的鼓励

2025

05/19

20:30

分享

点赞

邮件订阅