
据外媒报道,美国政府要求 OpenAI 把 GPT-5.6 的早期访问限制在少数经过批准的企业客户中,理由是安全评估。

几乎同一时间,OpenAI 放出了一篇关于 Codex 的研究报告,里面大量的数据,似乎更能解释这种紧张感的来源:AI 已经开始从「回答问题」,真实的走向了「替人完成一段工作」。
这份报告的名字叫《The Shift to Agentic AI: Evidence from Codex》(向智能体 AI 的转变:来自 Codex 的证据)。研究对象是 OpenAI 自家的 Codex,就是这段时间以来国内外互联网的流量密码,能读文件、跑命令、改代码、生成文档、调用工具的 agent 产品。
报告里一些夸张的数据像是,OpenAI 每周可能消耗上千万亿 Token,其中 99.8% 都是来自 Codex。
ChatGPT 曾经是 OpenAI 内部默认的 AI 工作工具,在 2025 年 8 月,OpenAI 员工平均在 Codex 上的花费不到其 Token 的 10%。

按每天 Codex 运行总时长从低到高排序,排到第 99 百分位的那批顶端重度用户,每天可以产生平均超过 60 小时的 Codex 智能体运行时间,因为多个 agent 并行跑,所以一天能超过 24 小时。

也就是说,在 OpenAI 内部,工作场景里的 AI 使用,几乎已经切到了 Codex 上。
「你用不用 AI」,正在变成一个废问题
过去三年,几乎所有关于 AI 的讨论都绕着一个问题转:你要不要用。
OpenAI 早先发过一份分析 ChatGPT 的报告,结论是:人们用 ChatGPT,将近一半是在「问」——问问题、找信息、要建议。

Codex 把整个倒了过来,人们用它「做」——调试、重构、验证、配环境、写文档、跑数据。
当 AI 只会聊天,「用没用」确实是个好指标,我们问它,它回答,用了就是用了。可一旦 AI 能替我们干活,该问的就变成了,我们能把多少活交出去,以及,有没有开始围着「给 AI 分配任务」重新安排自己的一天。
Codex 这份报告将衡量 AI 应用深度的指标,定位在我们交出去的任务有多重、agent 替人类跑了多久、用户是不是在同时盯着好几条工作线。
报告里也很清晰地说明了,Codex 现在适用哪些场景,哪些人;他们把用户分成三类:个人用户、外部组织用户、OpenAI 员工。
差异很明显。到 2026 年 6 月 11 日前的 28 天,个人活跃用户里,只有 0.7% 用过 Codex;外部组织用户高很多,达到 17.3%;OpenAI 内部则接近全员使用,达到 97.9%。



2026 年 6 月,外部组织账号里的非开发者 Codex 活跃用户,相对 2025 年 8 月 1 日已经接近 189 倍;个人账号里的非开发者也超过 130 倍。

具体到从岗位看,工程师仍然是最早、最明显的一批。外部组织用户中,工程技术岗位的平均 Codex 输出占比达到 26.8%,数据和分析岗位约 15.2%。法务、招聘等非技术岗位也在增长,但平均占比还低,比如法务只有 1.9%。

报告说,2026 年初,OpenAI 的法务、招聘等岗位几乎还没怎么用 Codex;到 4 月左右,这些岗位的 Codex 输出占比已经和工程数据一样,快速冲到很高的位置。

它可能无法直接代表普通公司今天的状态,但是展示了一种潜在的未来公司形态:当权限、工具、流程都打开之后,非技术岗位也能开始用 agent 做好工作。
用户拿 Codex 做什么?
报告把任务分成几大类:代码实现、代码理解、代码验证、工程运维、应用管理、数据分析、研究、知识产物、协作、业务流程。
从图表看,软件相关任务仍然占大头。用户不只是让 Codex 写新代码,也会让它读已有代码、解释架构、修 bug、跑测试、配置环境、管理仓库、处理构建和发布问题。
到了 OpenAI 内部,任务范围继续往外扩展。报告提到,OpenAI 员工会用 Codex 做研究和数据分析等工作,外部组织用户也开始出现类似用法,尤其是销售、市场、招聘等岗位,会用 Codex 生成知识产物,比如文档、材料、说明、报告等。

报告里有一个任务复杂度图,专门估算用户交给 Codex 的任务,如果让熟练人类独立完成,大概要花多久。
在个人用户样本里,2025 年 12 月,35.4% 的活跃用户提交过至少一个「熟练人类需要 1 小时以上」的任务。到 2026 年 5 月,这个比例升到 70.2%。

怎么用,也变了。
报告看了三个指标:并发、运行时间、skill。并发是说大多数人开始在一周内同时跑多个 Codex 任务,管理多个 Agent。运行时间上,平均每天 71 小时的 Codex 运行时间最能说明问题。
而 Skill 则代表了另一种变化,用户开始把重复工作沉淀成可复用流程。报告说,活跃 Codex 用户中,调用过 skill 的比例从 2026 年 3 月 1 日的 5.4%,升到 6 月 11 日的 26.6%。个人用户是 25.7%,外部组织用户是 30.4%,OpenAI 内部达到 96.2%。

前段时间 Fable 5 关闭,社交媒体上很多人在嘲讽 Anthropic 的 CEO,说「谁让你天天搞那些耸人听闻的营销,什么被吓到了,恐怖到要关闭,现在真的被关闭了吧!」

现在,GPT-5.6 的命运好像要和 Fable 5 一样,甚至还没有正式发布,就被美国政府要求审核分批发布。
当 Agent 真实地在改变工作组织方式的时候,一个人可以同时开几个任务,让一个 agent 查资料,一个 agent 改脚本,一个 agent 生成表格,一个 agent 写说明文档。人站在中间,像项目经理,也像编辑,决定哪些结果能进下一步。
Codex 渗透到越来越多场景的能力,似乎能解释为什么 GPT-5.6 的发布节奏会变得敏感。
当模型只是在聊天框里回答问题,风险主要来自它说了什么;当模型可以调用工具、读写文件、执行任务,风险就会进入真实工作流。能力越接近执行层,发布就越像基础设施上线,无法再只是按普通产品更新来理解。
AI 的能力可能会像资源一样,是人力资源也是物质资源。

所以,跟着我们往期的 Codex 教程一起来上手这个时代的 Agent 工具吧。