OpenAI内部智能体平台Kepler用于数据综合分析

OpenAI开发了名为Kepler的内部数据分析智能体，帮助员工从7万个数据集和600PB日增数据中快速获取答案。该平台通过GPT-5驱动，可通过Slack或IDE接入，自动执行复杂的数据查询任务。Kepler具备思维链推理能力，能识别相关数据集、编写SQL查询、验证结果并生成图表。系统还具备学习记忆功能，可从错误中改进。目前已扩展至财务、人力资源等多部门使用，显著提升了数据分析效率。

对于OpenAI员工而言，即使是询问某个特定国家有多少ChatGPT Pro用户这样看似简单的问题，也可能出乎意料地困难，因为所需的数据可能分散在多个数据源中，每个数据源的访问方式都略有不同。

总体而言，OpenAI拥有70,000个不同的数据集，每天积累600PB的新数据。大约3,500名员工可以访问这些数据，使用15种工具中的任何一种。公司一直密切关注用户数量，但随着增加更多地区、计划和功能，统计数字变得更加困难。

但每个新查询都带来了自己的挑战。因此，分析师经常发现自己在Slack上进行长时间的对话，甚至与同事开会，只是为了弄清楚如何访问数据。

"简单的问题不应该如此困难或耗时，"OpenAI数据生产力团队技术成员Bonnie Xu在上个月在纽约举行的QCON AI会议上的演讲中说道。

Xu在会上讨论了公司创建的一个名为Kepler的工具，用于简化这一过程。

Kepler是一个有用的智能体，旨在为OpenAI员工回答问题，隐藏它为找到答案而必须承担的有时很多的任务。

最初，Kepler主要是为公司的数据科学家设计的，但自推出以来，用户群已扩展到财务、人力资源和其他部门的其他人员。

据Xu说，一位Kepler用户实际上表示，这是他们体验过的最接近通用人工智能的AI系统。

数据访问的复杂性

对于业务分析师来说，许多数据库表可能看起来非常相似。一个数据库可能包括未登录用户，而另一个则不包括。一些表包括加密用户，而其他表则不包括，必须将该数据连接到结果数据集中。使用哪一个？

编写正确的SQL代码来提取数据也可能很困难，特别是如果涉及跨不同表的连接。

"错过一个细节可能导致答案错误一个数量级，这在做出重要商业决策时可能是灾难性的，"Xu说。

Kepler的工作原理

Kepler是内部构建的数据分析师，可以利用OpenAI的所有内部数据存储来回答问题。OpenAI员工可以通过Slack或IDE（如Cursor）与Kepler交互，或通过与特定工作流程的集成，或通过移动或其他远程客户端。在后台，Kepler使用GPT-5来解析请求。

为了提供Kepler如何工作的示例，Xu演示了一个关于纽约出租车行程时间的问题。她想知道一天中哪些时间段的行程时间变化最大，以及哪些行程是"最不可靠的"，即起点和终点位置对之间最短和最长行程时间的变化最大。

演示显示了Kepler执行的"思维链"，或一系列评估和行动，以回答这个问题。

首先，它进行内部知识搜索，识别两个潜在相关的数据集，包括2016年纽约市出租车行程时间数据收集，其中包括上车和下车时间，以及目的地和出发地的邮政编码。

然后智能体计算每个邮政编码的中位数时间，识别第95和99百分位数。智能体对如何编写适当的查询来获取所需信息进行有根据的猜测，测试每一个，很快找到一个有效的。

"你可以想象，手动执行此操作需要大量时间，但智能体只是代表你执行这些查询和结果步骤，"Xu说。当查询看起来正确时，它对结果进行排序，然后进行一些轻微的格式化，甚至准备一个图表来向用户呈现数据。（答案显示高峰时间和深夜是最不可靠的时间。）

Xu提供的另一个演示显示Kepler处理一个关于为什么2025年3月ChatGPT用户激增的问题。它咨询了仪表板和任务文档以找到显示此数据的表。Kepler编写了不同的查询来尝试确定使用量的突然增加，例如按地区查询。它寻找错误，例如日志数据重复。

思维链确定了一个可能的原因，即新生成式图像功能的推出。他们进行了网络搜索来交叉引用假设，找到了发布说明和关于推出的新闻文章。

Kepler存储所有问题，因此你可以稍后继续后续线程。当被问及关于2月14日情人节出租车行程的后续问题时，显示智能体知道要使用哪些表和查询。

如果你从思维链中看到Kepler正在走错方向，你也可以中断它。

由于分析师倾向于提出相同类型的问题，例如产品分析和数据验证，Kepler为这些类型的问题保留了自定义工作流程集。

技术架构

在其核心，Kepler是一组直接与ChatGPT（目前是第5版）通信的API。Kepler还直接连接到一组预处理信息，包括内部数据知识库和内部文档服务。它还可以调用在Apache Spark、Airflow和其他平台上运行的数据仓库和其他数据服务。

使用Anthropic发明的模型控制协议（MCP）对Kepler"非常有帮助"，Xu说。Kepler使用内部文档来理解如何查询数据库或在MCP上执行其他任务。如果结果没有按预期出现，它可以用轻微的修改重新运行查询。实际上，Kepler智能体正在自己推理。

"所以不是你提供反馈，而是Kepler运行工具，然后使用正确的工具来执行下一组步骤，取决于给定的任何反馈，"Xu说。

通常，自主运行的智能体可能返回完全不准确的结果，但有了额外的上下文，它们可以理解何时出了问题并尝试改变它们的方法。

"所以真正美妙的是Kepler可以交互式地探索数据本身，内容一直在传递，"她说。

元数据的重要性

帮助构建上下文的还有元数据。

"仅仅按原样查看表本身是不够的。你需要了解表是如何创建的以及它来自哪里，"Xu说。这是智能体真正理解表之间差异的秘密。

运行离线作业来编译关于每个表的这些信息。

这些数据大部分已经由公司编译。关于每个数据库表的丰富元数据已被捕获，例如为什么创建它以及正在用于什么，甚至其主键是什么。

它还使用代码生成从代码本身构建元数据。

"由于所有这些都由离线作业定期刷新，上下文保持新鲜，无需任何手动参与。"

如果Kepler或用户发现错误，它会将更正保存在内存中。

"对我们来说，内存确实是帮助智能体持续学习和改进的机制，"Xu说。"联系人将带你到80-90%的路程。但有时你需要那些真正难以推断的最终小修正。"

为了评估答案的质量，OpenAI运行一个Eval Grader，为每个测试的答案提供分数。它查看交付的结果与预期或正确结果的差异程度。

在许多情况下，正确答案的SQL查询可能与预期的略有不同，但开发团队为此做了规划。

"当我们比较解决测试时，我们实际上给那些不会有意义地影响答案的事情留了一点回旋余地，"Xu说。

用户将自己的凭据带到Kepler，从而确保他们看不到任何他们无权查看的数据。

未来展望

目前，OpenAI没有开源Kepler或将其作为企业产品提供的计划，Xu说，并指出她不在做出这些决定的位置上。

尽管如此，运行基于智能体的内部数据分析工具似乎为公司带来了很多价值。

"我认为至少从我们从用户那里听到的，直接使用Kepler要快得多。它更有生产力，只是因为当你查看不同来源时，你有很多事情要做，你必须连接点，"Xu说。"Kepler确实是顶层，为你做这件事的抽象。"

所有QCON AI演讲的视频将从1月15日开始通过视频会议通行证提供。

Q&A

Q1：Kepler是什么？它能解决什么问题？

A：Kepler是OpenAI内部开发的数据分析智能体，专门用于帮助员工快速访问和分析公司的海量数据。它解决了员工在查询分布在70,000个不同数据集中的信息时遇到的困难，避免了原本需要通过Slack对话或会议才能获取数据的复杂流程。

Q2：Kepler是如何工作的？

A：Kepler使用GPT-5作为核心引擎，通过"思维链"方式执行数据查询。它首先进行内部知识搜索识别相关数据集，然后生成和测试SQL查询，自动处理数据连接和格式化，最终提供结果和可视化图表。用户可以通过Slack、IDE或移动客户端与Kepler交互。

Q3：Kepler会对外开放使用吗？

A：目前OpenAI没有计划开源Kepler或将其作为企业产品对外提供。Kepler主要服务于OpenAI内部员工，包括数据科学家、财务和人力资源部门等，帮助他们更高效地进行数据分析工作。

来源：The New Stack

0赞

好文章，需要你的鼓励

OpenAI内部智能体平台Kepler用于数据综合分析

来源：The New Stack

2026

01/13

08:09

分享

点赞

非洲电信基础设施巨头数字化转型实战访谈

n8n 供应链攻击利用社区节点窃取 OAuth 令牌

如何完全移除Windows 11中的Copilot智能体

2026年首席信息官转型：从技术部署到AI系统整合者

掌握混合边缘环境架构的关键要素

IceWM 4.0发布，Budgie桌面环境转向Wayland原生支持

微软即刻终止古老部署工具包MDT服务

2026年1月全球数据中心最新发展动态

HPE网络在NRF 2026推出零售产品组合

NVIDIA在摩根大通医疗会议宣布与礼来等公司重大合作

GoBruteforcer僵尸网络利用弱凭证攻击加密货币项目数据库

新兴云服务商瞄准企业市场机遇

ADK智能体在Cloud Run上的完整部署指南

谷歌智能体开发套件架构深度解析：从核心组件到实践应用

Sleepbuds制造商Ozlo如何构建睡眠数据平台

CES 2026推出AI伴侣机器人Emily

Anthropic推出医疗健康功能助力患者理解病历记录

Google推出通用商务协议，推动智能体购物自动化

谷歌针对部分医疗查询移除AI概览功能

Motional采用AI优先策略重启无人驾驶出租车计划

OpenAI与软银联手投资10亿美元，助力星门项目能源伙伴发展

埃森哲投资Profitmind，押注AI智能体变革零售业

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: