关于ZAKER Skills 合作
雷锋网 2小时前

Anthropic、OpenAI 同一天落子 AI4S 赛道,巨头混战从「拼模型」转向「卡生态」

6 月 30 日,Anthropic 和 OpenAI 同时在 AI4S 赛道投下了各自的筹码。

Anthropic 发布了科研智能体工作台 Claude Science,明确表态 " 不依赖新模型 ",通过工作流整合现有能力来承包科学家的日常研究流程。

OpenAI 推出了 GeneBench-Pro,一套覆盖基因组学、定量生物学等 10 个领域的评测基准,其测试数据显示,在 129 个真实科研 workflow 题目中,即便是最强的 GPT-5.6 Sol,端到端通过率也只有 28.7%。

两家巨头的方向看似不同,但都是基于同一个判断:AI4S 的瓶颈已不是模型不够强,而是模型远未做到真正的端到端。

基于这一共识,Anthropic 的选择是把现有模型装进可扩展的工作台,用工具链和流程弥补模型的不可靠;OpenAI 的选择则是抢先定义 " 什么是科研任务的完成 ",把话语权锁进标准里。

而在此之前,Google DeepMind 已凭借 AlphaFold 等基础模型在 AI+ 科学领域深耕多年,其 Gemini for Science 平台正将专有资产与数据库捆绑,以平台整合的方式切入同一市场。

AI4S 的战局,已经悄然进入 " 巨头生态混战 " 阶段,从模型能力的单点比拼,全面切换到了生态位卡位与工作流整合的战场。

01

AI4S 撞上了一块怎样的 " 天花板 "

为什么三大巨头偏偏在这个时间点,不约而同地把战火烧到 AI4S 的底层基础设施?

开头提到,OpenAI 这次在 GeneBench-Pro 中设计了 129 道题目,完整模拟了真实科研工作流:从原始数据清洗、质控、建模、诊断,一直到得出结论。评分标准是严苛的二元制:只有全部决策正确才算通过。也就是说,哪怕中间分析步骤全对,只要最终结论错了,这道题就是零分。

数据显示,OpenAI 最强的 GPT-5.6 Sol 在 Max 推理设置下的通过率也只有 28.7%,而在非 GPT 模型中表现最强的 Claude Opus 4.8,其通过率仅达到 16.0%。

这说明,模型是能够注意到数据异常,识别出局部诊断信号的,但无法将这一认知转化为下游的方法论调整,做出相应的正确分析决策。注意到了问题,但没有改变行动—— OpenAI 在论文中将这一缺陷,命名为 "notice-act gap"。

" 识别 " 与 " 行动 " 之间的这道鸿沟从何而来?珞米科技创始人兼 CEO 吴昊从技术层面指出,通用大语言模型在生命科学领域存在三重结构性短板:

其一,难以直接理解生物原始数据的特殊结构;

其二,生物学中的许多现象无法简单套用文本的 tokenization 规则,比如基因表达本身具有随机性;

其三,生物学数据中普遍存在大量未知缺失值。

科研成本也是不可忽视的一个因素。GeneBench-Pro 数据显示,单道题的人工专家成本高达数千美元。当模型不可靠时,科研机构不得不继续依赖昂贵的人力。除此之外,生命科学领域也对数据合规有着极其严苛的要求。

这就是混战发生在当下的原因。模型能力触及了 "notice-act gap" 的天花板,堆算力的老路在科研场景里走不通,工程化整合、生态卡位和数据主权,变成了更务实的突破口。三大巨头不约而同的入局,是 " 撞 " 天花板撞出来的必然。

02

同一张牌桌,三种不同打法

在这块天花板面前,三家巨头选择了截然不同的 AI4S 方向,雷峰网注意到,它们都指向同一个终点:成为科学家工作不可或缺的底层基础设施。

Anthropic 的打法最直白。Claude Science 本质上是一个专门的工作台——主 AI 助手像项目经理一样拆分任务,拆解后分发给子助手执行,再由事实核验器交叉验证。它连接了 60 多个科学数据库,预建了基因组学、蛋白质结构和化学等工具包。

吴昊分析指出,其技术实质是通过 MCP 协议调用外部垂直模型(如 scGPT 处理单细胞数据、DNABERT 解析基因序列等)执行具体计算,Claude 自身只承担自然语言理解、任务拆解和结果解读的角色。

这种分工使得 Anthropic 确实无需依赖新模型,也带来了现实优势:一方面避免了通用大模型直接处理生物矩阵时的高昂推理成本;另一方面,垂直模型可以独立迭代,无需等待通用大模型的长周期更新。更重要的是,生命科学领域严格要求数据合规,这种做法能让敏感数据在本地 MCP Server 上处理,无需上传云端。

如果说 Anthropic 的做法,相当于 " 包揽 " 了一整条跑道,那么 OpenAI 的逻辑,就是用 GeneBench-Pro 当裁判,定义 " 什么是好的 AI4S",再用专用模型 GPT-Rosalind 当运动员,去冲击高分。

除了这次最新发布的 GeneBench-Pro,OpenAI 早在四个月前,就推出了 GPT-Rosalind,这个模型专门做生物推理微调,以研究预览版形式向美国合格企业客户开放,需通过安全审查。

Google DeepMind 则握着独一无二的王牌。它拥有 AlphaFold、AlphaGenome 等基础科学模型,均为自有专有资产,并与 Gemini for Science 深度捆绑,整合 30 多个生命科学数据库。

关键优势在于,其他玩家只能以调用工具的方式接入的模型,在 Google 这里是自家的底层基础设施。或许其他厂商能做一个更好的工作台,或者定义更严苛的基准,但蛋白质结构预测的核心能力在 Google 手里。

在市场打法上,三家巨头的选择也各有不同:

Anthropic 走宽,靠订阅普及化,Pro、Max、Team 和 Enterprise 订阅用户均可使用 Claude Science。值得一提的是,近期 Anthropic 还推出了 $30,000 credits 的资助计划,面向 50 个博士后和研究生项目,申请截止 7 月 15 日,试图在青年科学家成为独立 PI 之前,先把他们锁定在自己的工作台里,让下一代科研人员养成使用 Claude Science 的学术习惯。

OpenAI 走窄,标准公开,允许更多人入局使用,但模型封闭,靠企业门禁建立门槛。

Google 走深,靠专有资产构筑壁垒,模型即平台,越用越深,越深越离不开。

三套打法,其实对应了三种不同的思路和风险。

Anthropic 赌天花板短期撞不穿,先用工程化把工作流铺开,核心风险在于模型突破万一提前到来,或许会沦为只能做排列组合的工具箱。

OpenAI 赌天花板迟早会破,先占住标准等模型能力追上来,但这种 " 自封裁判身份 " 的做法,存在不被科学界买账的可能。

Google 赌天花板之上还有一层——谁掌握了基础模型的源头,谁就永远有牌可打,壁垒确实够高,但生态相对封闭。

三家各有筹码,各有盲区,没有一家拿到了必胜的手牌,但它们都在同一时间窗口里,把自己手上的筹码一次性推上了桌。

目前来看,胜负难以预测,至少头部客户尚未被任何一家锁定:制药巨头 Novo Nordisk 同时出现在 Anthropic(Claude Science 案例客户)和 OpenAI(Rosalind 早期合作伙伴)的名单里。同一家甲方,正在并行试用多家方案,意味着市场还在开放竞争期,没有哪一家的工具链已经强到让科学家愿意把完整 workflow 迁移上去。

AI4S 的终局,大概率不会被任何一家巨头单独决定。当三大玩家在同一天撞上天花板,它们不约而同地选择了入局,但突围的方向还没有共识。真正的答案仍在科学家手中——他们如何在数据主权、学术独立性和研究效率之间取舍,又将信任的一票投给谁。这个答案,可能比任何技术参数都更能决定终局。

有关 AI4S 的更多进展与行业观点,欢迎添加雷峰网作者微信 LorraineSummer 交流讨论。

相关阅读

最新评论

没有更多评论了
雷峰网

雷峰网

读懂智能&未来

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容