根据一位数据库研究员的说法,基于向量嵌入算法的自动化数据库系统可以将常见PostgreSQL数据库服务的默认设置性能提升2到10倍。
卡耐基梅隆大学数据库组副教授Andy Pavlo在接受The Register采访时解释说,自动化数据库调优和优化选项的问题——这一直是数据库管理员(DBA)的珍贵技能——与单个模型难以一次性掌握所有参数有关。
虽然经验丰富的数据库管理员可能有调优系统性能的经验,但构建现代系统的开发者往往会使用来自主流云服务提供商的数据库服务——比如AWS的关系数据库服务(RDS)——而他们不太可能了解如何调优这些服务。
数据库为系统构建者提供了大量选择来获得更好的性能。Pavlo说,这些选择主要分为四组:系统参数,如运行时参数和内存缓存策略;物理设计,如数据结构或索引类型;查询调优选项,控制数据库如何执行查询;以及生命周期管理,涉及何时升级软件或硬件的长期决策。
虽然机器学习技术已经构建了智能体来尝试单独解决这些问题,但将它们作为一个整体来处理会导致惊人数量的选择和选择组合,其中许多是相互依赖的。早期的研究试图找出这些调优的最佳序列,但他们发现解决方案可能依赖于工作负载,而在解决方案路径上做出的选择意味着可能错过最佳方案。
Pavlo的团队希望同时调优所有智能体,但问题空间如此庞大,任何系统在找到答案之前都会耗尽计算时间,尤其是因为系统必须运行查询才能发现是否得到了最优解决方案。
为了解决这个问题,该团队研究了Google 2016年的一篇论文,该论文提出使用关于行动的先验信息将它们嵌入到一个连续空间中,在此基础上可以进行泛化。这被称为Wolpertinger架构,以德国民间传说中的神话生物命名,它使用向量嵌入来测量早期行动的相似性,就像大语言模型使用它们来判断词语相似性一样。
采用这种方法,Pavlo的团队构建了一个名为Proto-X的所谓整体调优智能体,试图为数据库调优的所有可能选择一次性获得最优输出,而不必运行所有单独的调优智能体。
"你创建一个编码器,将数据库的配置转换为特征向量,并将其放入高维潜在空间。你还训练一个解码器,然后可以获取嵌入来源的特征向量,并将其重新放入数据库配置中,"他说。
Pavlo说,强化学习算法可以学习如何对数据库调优选择进行排序,决定进行更多探索或利用之前已经看到的内容,收敛到更好的配置。
Pavlo说,运行Proto-X工具可能需要12小时才能得出"惊人"的结果。但通过使用基于大语言模型的"增强器"可以减少这个时间,该增强器获取其他类似数据库的训练数据,并识别与目标数据库相似的性能配置文件。
"我们新的大语言模型增强提供了知识迁移,将12小时的时间缩短到大约50分钟,"Pavlo说。
作为最近一篇论文的主题,大语言模型增强器还可以在紧急情况下响应时间限制和数据库的当前状态。
"如果你的数据库出了问题,你不会想要运行一个可能需要一小时才能计算出某些修复方案的算法,"Pavlo说。"你想立即运行一些东西来尝试缓解问题。然后一旦情况稳定,它就可以运行长期算法——使用大语言模型增强器的整体算法——需要更多时间,但提供你所需的预防性维护,确保问题在未来不会发生。这就是改变游戏规则的重大变化。"
自动驾驶数据库的概念可能至关重要,不仅对缺乏数据库管理经验的开发者如此,随着"感觉式编程"概念的传播更是如此。
"我相信,通过添加大语言模型增强,我们已经达到了可以实现完全自动驾驶数据库系统的程度,不需要任何人工干预,"Pavlo说。"在感觉式编程时代,这绝对至关重要,因为有一群智能体生成的应用程序,人类永远不需要查看。"
Pavlo正在建立一家新公司,将首先为PostgreSQL数据库服务提供技术,提供整体调优和大语言模型增强。该公司名为So You Don't Have To (SYDHT),预计明年推出。
他说,通过基于Wolpertinger的Proto-X,用户可以在PostgreSQL的标准数据库服务设置上获得10倍的性能提升。
Q&A
Q1:Proto-X是什么?它能做什么?
A:Proto-X是卡耐基梅隆大学团队开发的整体调优智能体,它可以同时优化数据库的所有调优选择,而不需要运行多个单独的调优智能体。通过向量嵌入技术,Proto-X能够将PostgreSQL数据库性能提升2到10倍。
Q2:大语言模型增强器如何加速数据库调优过程?
A:大语言模型增强器通过获取其他类似数据库的训练数据,识别与目标数据库相似的性能配置文件,提供知识迁移。这使得原本需要12小时的调优过程缩短到大约50分钟,大大提高了效率。
Q3:SYDHT公司什么时候推出,主要提供什么服务?
A:SYDHT(So You Don't Have To)公司预计明年推出,主要为PostgreSQL数据库服务提供整体调优和大语言模型增强技术,帮助用户实现数据库的自动化管理和性能优化。
好文章,需要你的鼓励
为了确保生成内容的专业度,夸克算法团队已经与通义实验室成立了联合研发小组,专注于搜索推理与可信生成。
这项由伊利诺伊大学厦巴纳-香槟分校和滑铁卢大学联合完成的研究,开发了名为VideoScore2的AI视频评估系统,能够像人类专家一样从视觉质量、文本对齐和物理一致性三个维度对AI生成视频进行详细评估,并提供透明的分析过程。该系统在多项测试中显著超越现有评估工具,在准确率上提升近6个百分点,为AI视频行业提供了标准化、可解释的质量评估解决方案,有望推动整个领域的技术进步。
OpenAI于周二发布AI浏览器ChatGPT Atlas,目标是让ChatGPT成为搜索和问答的首选界面而非谷歌。该浏览器目前仅支持Mac,但正在开发Windows、iOS和Android版本。Atlas将ChatGPT设为默认搜索选项,并具备记忆功能,可结合浏览历史提供个性化答案。与其他AI浏览器不同,Atlas更专注于强化ChatGPT生态系统,为OpenAI提供更多用户数据和分发控制权,而非改善传统浏览体验。
滑铁卢大学研究团队提出批评强化学习新方法,让AI模型在学习编程的同时学会批评代码质量。CRITIQUE-CODER模型采用8:2混合训练,不仅保持编程能力还获得代码评价能力。实验显示,该方法让小参数模型超越大模型,4B参数版本在LiveCodeBench达59分,超越基础模型4.8分。更重要的是,批评能力可迁移到逻辑推理等其他领域,为AI训练范式转变指明新方向。