GitHub将用Copilot数据训练AI模型并与微软共享

GitHub宣布从4月24日起，将使用Copilot Free、Pro和Pro+用户的交互数据来训练和改进AI模型，数据包括输入输出、代码片段等七类信息。用户可在账户设置中选择退出，但默认为同意。值得注意的是，这些数据不仅供GitHub使用，还将与包括微软在内的关联公司共享。企业版用户不受此更新影响。开发者社区对此反应不一，有人批评默认同意机制，也有人赞赏GitHub的透明度。

GitHub正式宣布将使用用户数据来训练其人工智能模型。

本周GitHub宣布，将使用GitHub Copilot用户的交互数据（包括输入、输出、代码片段和相关上下文）来训练和改进其AI模型。GitHub首席产品官Mario Rodriguez在博客文章中公布了这一消息。

此次更新从4月24日开始生效，适用于所有Copilot免费版、专业版和专业增强版用户，但用户可以选择退出。GitHub在周三发给Copilot用户的邮件中解释了退出方法："进入GitHub账户设置；选择Copilot；选择是否允许您的数据用于AI模型训练。"

如果您之前已经选择不让GitHub收集您的交互数据用于产品改进（即禁用了"启用或禁用提示和建议收集"设置），这些偏好设置将继续有效，您可以跳过此步骤。

Copilot商业版和企业版用户无需担心，他们不会受到此次更新的影响。

数据共享范围扩大

重要的是，如果您不选择退出，不仅GitHub会访问您的交互数据，其关联公司也会获得访问权限。

正如GitHub指出的，这包括"我们企业家族中的公司，包括微软"。根据GitHub在周三发布的隐私声明和条款条件更新，这些关联公司"现在可以将共享数据用于其他目的，包括开发和改进人工智能和机器学习技术，但需遵守适用法律和各自的隐私承诺"。

该平台表示，这些权限不会扩展到第三方AI模型提供商或其他独立服务提供商。但正如其在常见问题解答和相关讨论中澄清的："我们也可能聘请服务提供商代表我们协助进行模型训练，但需遵守合同义务，仅将数据用于向GitHub提供服务。"

如果您不选择退出，究竟会向GitHub及其关联公司提供什么数据？

GitHub公告中的清单涵盖了七种类型的交互数据，包括："您接受或修改的输出"；"发送给GitHub Copilot的输入"；"光标位置周围的代码上下文"；"您编写的注释和文档"；"文件名、存储库结构和导航模式"；以及"与Copilot功能的交互（聊天、内联建议等）"。

不包括在模型训练中的是来自Copilot商业版、企业版或企业拥有的存储库的交互数据，也不包括"您的问题、讨论或静态私有存储库中的内容"。

在其公告中，GitHub特别强调了这个"静态"说明，指出此次更新"确实会在您积极使用Copilot时处理来自私有存储库的代码"。

当被问及交互数据保留多长时间以及用户是否可以查看或删除这些数据时，GitHub表示保留期因使用情况而异，指出它可能会保留输入、输出、代码片段和相关上下文长达五年，但通常时间会更短。

改进AI模型的目标

在公告博客文章中，Rodriguez提醒读者，GitHub使用公开可用数据和代码样本构建了其原始模型。在过去一年中，该平台表示已将微软员工的交互数据纳入其中，实现了"有意义的改进，包括多种语言的接受率提高"。

现在，GitHub希望通过将用户交互数据纳入训练来看到类似的收益，希望帮助其模型更好地理解开发工作流程，提供更准确、安全的代码模式建议，并及早发现错误。

但从Reddit和Hacker News上开发者社区的初步反应来看，并非所有人都相信这次更新对所有用户都有同等的好处。

一个常见的抱怨是用户必须选择退出，而不是选择加入；还有人说GitHub提供了相互矛盾的退出说明，使操作变得不必要地困难。

还有其他人批评GitHub使用个人用户数据但不使用企业数据的做法，正如Hacker News上一位评论者写道：

"您描述的个人/企业不对称是B2B SaaS的标准做法。Slack、Notion和Figma都在企业数据处理协议中包含了机器学习训练例外条款，而免费用户没有这些保护。GitHub在这里没有做任何不寻常的事情——他们只是在处理代码，这感觉比文档或消息更敏感，因为您可能真的在个人账户上处理雇主的知识产权。"

在其常见问题解答和相关讨论中，GitHub通过承认与商业版和企业版客户有协议禁止Copilot交互数据用于模型训练来解释这种差异，并再次强调个人用户可以随时选择退出。

其他开发者批评声音较小，认为GitHub在透明度方面比其他公司更诚实："说实话，我很欣赏他们为此添加了通知横幅。大多数公司会尽可能悄悄地做这件事，"一位Reddit用户写道。

GitHub为其决定将个人用户交互数据纳入模型训练进行了辩护，称这符合既定的行业惯例，并且"将为所有用户改善模型性能"。GitHub表示，目前用户数量已超过2600万。随着如此多的开发者使用GitHub Copilot，现在可用于AI模型训练的数据量之大可能会导致模型改进速度加快。

"我们相信AI辅助开发的未来取决于来自开发者的真实世界交互数据，"Rodriguez在公司公告文章中肯定地说。

Q&A

Q1：GitHub Copilot数据训练新政策什么时候开始实施？

A：此次更新从4月24日开始生效，适用于所有Copilot免费版、专业版和专业增强版用户，但用户可以选择退出。Copilot商业版和企业版用户不受此次更新影响。

Q2：如何选择退出GitHub Copilot数据训练？

A：用户需要进入GitHub账户设置，选择Copilot，然后选择是否允许数据用于AI模型训练。如果之前已经禁用了"启用或禁用提示和建议收集"设置，这些偏好设置将继续有效。

Q3：GitHub会收集哪些类型的用户数据用于训练？

A：GitHub会收集七种类型的交互数据，包括用户接受或修改的输出、发送给Copilot的输入、光标位置周围的代码上下文、用户编写的注释和文档、文件名和存储库结构、导航模式，以及与Copilot功能的交互等。

来源：The New Stack

0赞

好文章，需要你的鼓励

GitHub将用Copilot数据训练AI模型并与微软共享

来源：The New Stack

2026

04/02

10:28

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

YouTube提升AI生成视频标签的显示效果

Claude AI在Mac上实现自主操作：可开启应用并完成任务

Allen AI发布开源网络智能体MolmoWeb

每个开发者都应该掌握的四种提示词工程模式

中国在开源AI竞赛中领先，但美国公司仍控制底层基础设施

Cursor推出Composer 2编程模型，性能超越Claude Opus 4.6且成本更低

Java 26 发布：非 LTS 版本为何依然值得开发者关注

OpenAI发布GPT-5.4 mini和nano模型，专为智能体子任务设计

GitHub Copilot重塑程序员工作方式令研究者震惊

Claude Code代码泄露暴露类似电子宠物功能和常驻智能体

ChatGPT现已支持苹果CarPlay车载系统

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: