关于ZAKER 合作
钛媒体 6小时前

GitHub 修改 Copilot 隐私政策:4 月 24 日起默认使用用户交互数据训练 AI ​

微软旗下的代码托管平台 GitHub 宣布了一项重大的隐私政策调整。自 2026 年 4 月 24 日起,GitHub 将默认收集并使用部分客户的交互数据(包括输入提示、输出结果、代码片段及相关上下文)来训练其 AI 模型。

这一举措标志着 AI 辅助开发工具在真实场景数据获取策略上的进一步推进。

政策波及范围与豁免机制

本次政策调整主要针对使用 Copilot Free、Pro 以及 Pro+ 订阅级别的个人用户。

由于现有的企业级合同条款限制,Copilot Business 和 Copilot Enterprise 企业用户将不受此新规影响。

同时,通过教育计划获取 Copilot 使用权的学生和教师群体也被明确列入豁免名单。

对于受影响的个人用户,GitHub 采取了 " 默认同意,允许退出 "(Opt-out)的机制,这与当前北美科技行业的普遍数据收集惯例一致。

如果用户不希望自己的代码交互数据被用于模型增强,必须主动进入账号的 Copilot 功能设置页面,手动禁用隐私选项下的 " 允许 GitHub 使用我的数据进行 AI 模型训练 " 功能。

核心提取数据与私有仓库边界根据官方披露的更新细则,一旦用户处于默认参与状态,GitHub 将在使用 Copilot 期间收集多维度的数据。

这些交互数据涵盖:

用户接受或修改的模型输出结果;

包含所显示代码片段的模型输入提示;

光标位置周围的代码上下文;

用户编写的注释和文档;

文件名及仓库物理结构;

与 Copilot 功能的互动记录(如对话);

以及点赞或点踩的反馈评分。

这项政策在技术层面上对 " 私有仓库 " 的数据边界做出了更精准的界定。

官方解释称,GitHub 不会扫描或使用私有仓库中处于 " 静态存储 "(at rest)状态的代码底座。

但如果用户在私有仓库中激活并使用 Copilot,其在实时交互过程中产生的代码片段和上下文,将被视为交互数据,纳入采集与训练的范畴。

官方商业逻辑与产业底层现状

针对数据策略的转向,GitHub 首席产品官 Mario Rodriguez 给出了直接的技术效用解释。他指出,引入真实世界的交互数据能够显著提升 AI 模型的性能。

前期通过整合微软内部员工的交互数据,模型在多语言环境下的代码采纳率已经实现了有效增长。

进一步扩大数据收集范围,旨在帮助模型更好地理解开发工作流,从而提供更准确的安全代码建议,并在代码进入生产环境前拦截潜在漏洞。

同时,GitHub 在官方说明中列举了 Anthropic、JetBrains 以及母公司微软的类似政策,以说明这种数据使用策略已成为当前生成式 AI 赛道的行业常态。

从更宏观的产业逻辑来看,无论是最初对公开代码库的微调,还是如今对实时交互数据的提取,都客观反映了当前大模型厂商在算力竞争之外,对高质量对齐数据和真实开发者交互数据的刚性渴求。(本文首发钛媒体 APP,作者 | 硅谷 Tech_news,编辑 | 秦聪慧)

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容