OpenAI 终于为 ChatGPT 用户添加了一项期待已久的功能:引用内部知识源的能力。
在此测试期间,ChatGPT Team 付费用户可以直接将内部知识数据库连接到平台,引入公司特定信息。许多企业表示,这一功能将能够提供更好的问题解答。
这使用户能够对数据进行语义搜索,在回答中直接链接到内部资源,获取最相关和最新的上下文信息,并确保 ChatGPT 能够理解公司内部术语。
目前,ChatGPT Team 管理员可以将 Google Drive 连接到 ChatGPT。不过,OpenAI 的产品经理 Nate Gonzales 在 LinkedIn 上发文表示,团队"正在开发下一波连接器,目标是支持团队当前依赖的所有关键内部知识源"。这可能包括数据分析平台和客户关系管理系统 (CRM)。
Gonzales 说:"我最喜欢的一点是:随着时间推移,模型会学习你组织的独特语言,包括项目名称、缩写词和团队特定术语,同时遵守用户权限,确保响应建立在正确的上下文中。(在 OpenAI,我们都喜欢使用代号)"。
内部文档提升机构知识
通过连接内部知识库,ChatGPT Team 可能对那些已经在使用平台进行战略咨询或分析的用户变得更加不可或缺。查询公司和领域特定数据为用户对话提供了更多上下文,使 AI 聊天机器人更加实用。
毫不意外,许多拥有 AI 平台、聊天机器人、代理或应用程序的公司都将其专有的内部知识图谱作为差异化优势。这也是企业搜索成为企业 AI 领域新兴方向的原因。
像 Glean 这样的公司提供了使用 AI 在企业内部查找信息的方法。ServiceNow 收购 MoveWorks 就是为了增强其企业搜索能力。
OpenAI 已经允许用户直接从 Google Drive 或 Microsoft OneDrive 上传文档。Google 将 Gemini 的能力引入其 Workspace 产品,这意味着用户可以在文件中向模型询问有关工作的问题。Perplexity 也增加了使用内部文档作为数据源的功能。
控制和定制
OpenAI 表示,对于某些用户来说,数据源的控制方式会有所不同。
虽然只有管理员可以添加数据连接器,但小型团队的用户可以配置 ChatGPT 何时访问内部知识库以及访问哪些云盘。然而,对于较大的团队,需要管理员决定可以访问哪些共享的 Google Drive。
OpenAI 表示,对于许多常见的提示,ChatGPT 知道何时访问连接的数据源。用户仍可以在消息编辑器中选择"内部知识"。
该公司表示,ChatGPT "完全遵守现有的组织设置和权限",因此没有特定云盘或文档访问权限的用户无法强制 ChatGPT 读取这些内容。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。