GitHub正式宣布将使用用户数据来训练其人工智能模型。
本周GitHub宣布,将使用GitHub Copilot用户的交互数据(包括输入、输出、代码片段和相关上下文)来训练和改进其AI模型。GitHub首席产品官Mario Rodriguez在博客文章中公布了这一消息。
此次更新从4月24日开始生效,适用于所有Copilot免费版、专业版和专业增强版用户,但用户可以选择退出。GitHub在周三发给Copilot用户的邮件中解释了退出方法:"进入GitHub账户设置;选择Copilot;选择是否允许您的数据用于AI模型训练。"
如果您之前已经选择不让GitHub收集您的交互数据用于产品改进(即禁用了"启用或禁用提示和建议收集"设置),这些偏好设置将继续有效,您可以跳过此步骤。
Copilot商业版和企业版用户无需担心,他们不会受到此次更新的影响。
数据共享范围扩大
重要的是,如果您不选择退出,不仅GitHub会访问您的交互数据,其关联公司也会获得访问权限。
正如GitHub指出的,这包括"我们企业家族中的公司,包括微软"。根据GitHub在周三发布的隐私声明和条款条件更新,这些关联公司"现在可以将共享数据用于其他目的,包括开发和改进人工智能和机器学习技术,但需遵守适用法律和各自的隐私承诺"。
该平台表示,这些权限不会扩展到第三方AI模型提供商或其他独立服务提供商。但正如其在常见问题解答和相关讨论中澄清的:"我们也可能聘请服务提供商代表我们协助进行模型训练,但需遵守合同义务,仅将数据用于向GitHub提供服务。"
如果您不选择退出,究竟会向GitHub及其关联公司提供什么数据?
GitHub公告中的清单涵盖了七种类型的交互数据,包括:"您接受或修改的输出";"发送给GitHub Copilot的输入";"光标位置周围的代码上下文";"您编写的注释和文档";"文件名、存储库结构和导航模式";以及"与Copilot功能的交互(聊天、内联建议等)"。
不包括在模型训练中的是来自Copilot商业版、企业版或企业拥有的存储库的交互数据,也不包括"您的问题、讨论或静态私有存储库中的内容"。
在其公告中,GitHub特别强调了这个"静态"说明,指出此次更新"确实会在您积极使用Copilot时处理来自私有存储库的代码"。
当被问及交互数据保留多长时间以及用户是否可以查看或删除这些数据时,GitHub表示保留期因使用情况而异,指出它可能会保留输入、输出、代码片段和相关上下文长达五年,但通常时间会更短。
改进AI模型的目标
在公告博客文章中,Rodriguez提醒读者,GitHub使用公开可用数据和代码样本构建了其原始模型。在过去一年中,该平台表示已将微软员工的交互数据纳入其中,实现了"有意义的改进,包括多种语言的接受率提高"。
现在,GitHub希望通过将用户交互数据纳入训练来看到类似的收益,希望帮助其模型更好地理解开发工作流程,提供更准确、安全的代码模式建议,并及早发现错误。
但从Reddit和Hacker News上开发者社区的初步反应来看,并非所有人都相信这次更新对所有用户都有同等的好处。
一个常见的抱怨是用户必须选择退出,而不是选择加入;还有人说GitHub提供了相互矛盾的退出说明,使操作变得不必要地困难。
还有其他人批评GitHub使用个人用户数据但不使用企业数据的做法,正如Hacker News上一位评论者写道:
"您描述的个人/企业不对称是B2B SaaS的标准做法。Slack、Notion和Figma都在企业数据处理协议中包含了机器学习训练例外条款,而免费用户没有这些保护。GitHub在这里没有做任何不寻常的事情——他们只是在处理代码,这感觉比文档或消息更敏感,因为您可能真的在个人账户上处理雇主的知识产权。"
在其常见问题解答和相关讨论中,GitHub通过承认与商业版和企业版客户有协议禁止Copilot交互数据用于模型训练来解释这种差异,并再次强调个人用户可以随时选择退出。
其他开发者批评声音较小,认为GitHub在透明度方面比其他公司更诚实:"说实话,我很欣赏他们为此添加了通知横幅。大多数公司会尽可能悄悄地做这件事,"一位Reddit用户写道。
GitHub为其决定将个人用户交互数据纳入模型训练进行了辩护,称这符合既定的行业惯例,并且"将为所有用户改善模型性能"。GitHub表示,目前用户数量已超过2600万。随着如此多的开发者使用GitHub Copilot,现在可用于AI模型训练的数据量之大可能会导致模型改进速度加快。
"我们相信AI辅助开发的未来取决于来自开发者的真实世界交互数据,"Rodriguez在公司公告文章中肯定地说。
Q&A
Q1:GitHub Copilot数据训练新政策什么时候开始实施?
A:此次更新从4月24日开始生效,适用于所有Copilot免费版、专业版和专业增强版用户,但用户可以选择退出。Copilot商业版和企业版用户不受此次更新影响。
Q2:如何选择退出GitHub Copilot数据训练?
A:用户需要进入GitHub账户设置,选择Copilot,然后选择是否允许数据用于AI模型训练。如果之前已经禁用了"启用或禁用提示和建议收集"设置,这些偏好设置将继续有效。
Q3:GitHub会收集哪些类型的用户数据用于训练?
A:GitHub会收集七种类型的交互数据,包括用户接受或修改的输出、发送给Copilot的输入、光标位置周围的代码上下文、用户编写的注释和文档、文件名和存储库结构、导航模式,以及与Copilot功能的交互等。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。