10 小时测完 DeepSeek-V4！北大团队终结工程师噩梦？深扒大模型评测的“千亿生意”

DeepSeek-V4 发布仅仅 10 小时后，一份全量自动化评测报告就出炉了。

操刀的是北京大学 DCAI 团队。

他们刚刚开源了一个面向大模型评测的新框架—— One-Eval。

很多人可能会问：10 个小时，很快吗？

在真实的 AI 工程界，这一效率提升堪称行业范式级突破。

过去，当老板扔来一个需求：" 帮我测测这个新模型在代码、数学和长文本上的能力。" 工程师往往面临繁重且低效的人工操作流程。

你要自己去海量开源资源中筛选适配评测基准集（Benchmark）。

你要自己写下载脚本、耗费精力做字段适配、调试各类复杂配置参数。

跑完之后还没完，你还得在繁杂运行日志中排查解析异常问题。

简单来说：真正用来让模型跑分的时间，还不如搭测试管道花的时间多。

10 小时通关的背后，其实隐匿着一个长期被大众忽视，却估值高达数百亿美元的专业产业链。

真实的商业世界里，评测绝不仅仅是一份吃瓜群众爱看的跑分排行榜。

它是一门关于标准定义、数据壁垒与行业需求的顶级生意。

算力时代的评测痛点：传统评测行业积弊已久

为什么要拼了命地评测大模型？

因为千亿参数的模型训练太烧钱了。

对于底层模型厂商来说，评测分数是企业融资、获取算力资源的重要依据。

对于 B 端企业客户来说，分数就是决定要不要把核心业务（比如金融风控、医疗诊断）交给这个 AI 来处理的重要决策依据。

这催生了 OpenCompass 等一批优秀的传统评测框架。但随着模型越来越复杂，传统评测的静态模式弊端被彻底暴露了。

太难用。传统评测就像静态流水线，你需要逐项手动配置各类参数。一旦遇到模型输出的格式不那么规矩，程序就会直接中断，造成测评结果误判。

太黑盒。跑完只丢给你一个单一的量化分数。至于提示词是怎么拼的？评分规则、模型打分依据均无透明可查记录。一旦出了 Bug，排查起来难度极大、无从溯源。

最致命的一点是：行业榜单公信力持续下滑。

模型在训练时 " 偷看 " 了考卷，这叫数据污染。

当所有的 AI 在基础测试里都能考出 95 分的高分时，榜单就失去了公信力。为了对抗这种污染，行业内甚至被迫引入检测模型对特定数据的置信度等手段，来甄别数据污染行为。

降维突围：北大 One-Eval 到底做对了什么？

当传统框架还停留在高度人工依赖的老旧模式时，北大团队开源的 One-Eval，直接推出了 " 智能体化 " 的全新解法。

它完成了一次彻底的交互降维：不再是 " 写配置跑脚本 "，而是自然语言驱动。

你只需要在对话框里敲一句大白话：" 我想测试我的模型在金融、法律、医疗领域的表现，并看看幻觉情况如何。"

接下来，One-Eval 的底层调度引擎会像专业调度引擎一样，自主开展工作。

它会自动识别你的意图，并匹配工具：指令跟随用 IFEval，医疗用 MedQA，法律用 LegalBench，金融用 FinanceQA。

选好之后，结构解析、参数配置、底层数据拉取，全部由系统后台静默完成。

一行配置都不用写。

更有意思的是，它打破了黑盒。

One-Eval 引入了基于全局状态（Global State）的数据总线架构。评测的完整生命周期都被记录下来，一旦报错，断点清晰可见，全链路可追溯。

同时，它又展现出了严谨合理的系统设计思路——保留了 " 人工在环 "（Human-in-the-Loop）。

在系统给出评测方案时，它会主动停下来，把上下文展示给你，等待人工审核确认后，再继续执行。

在复杂的主观评判场景下，这种人机协同远比盲目的全自动更让人安心。

当然，作为一款新生的开源工具，它也有当前的能力边界与适配局限。

根据其文档与架构特征，目前 One-Eval 内置的基准主要覆盖纯文本能力。

如果你需要测试非常复杂的真实软件工程能力（比如需要独立 Docker 沙盒环境的代码执行测试），目前依然是它的能力盲区。

行业深层收益：评测赛道的商业逻辑

如果说 One-Eval 是铺设铁路的修路大军，那么在铁路上建立行业服务壁垒、提供专业商业化服务，则是深谙行业商业化与资本运作逻辑。

这绝不仅是一个 " 卖软件授权 " 的单纯工具授权生意。

这门生意的买单方，是被 AI 升级需求倒逼的 B 端企业。

一边是持续融资布局的大模型研发企业，一边是急于把 AI 接入业务的《财富》500 强企业。

在这个千亿规模的赛道里，头部公司的盈利逻辑被极其精密地设计为三个层层联动的盈利体系：

第一重：收取基础的企业服务费用

对于企业内部日常的自动化评测需求，商业平台切入了合规刚需。提供企业级的审计日志、权限管理等服务，按 API 调用量或席位收取合理的商业化服务费用。这构成了他们极其稳定的现金流底座。

第二重：垄断定义权，提供私有化专业评测认证服务

既然开源考卷被污染了，高分没人信了，商业公司顺势就接管了重新定义行业评测标准体系。

比如行业巨头 Scale AI，他们推出了全新的 SEAL 排行榜。

这个榜单不玩静态代码谜题，直接引入真实人类专家进行盲测比对，从机制上规避数据泄露与刻意刷榜行为。

逻辑瞬间质变：基础模型公司如果想向投资人证明自己比竞品强，就必须花重金购买这种不可篡改的私有评测认证。

这就如同在开展商业化落地与资本市场估值前，你必须采购专业机构的权威评测认证。

第三重：" 诊断 + 卖药 " 的数据引擎终极闭环

这是这门生意最核心的护城河，也是最具核心壁垒的商业闭环。

首先，评测系统通过大规模并发，精准定位模型在细分场景的能力短板与逻辑缺陷。

紧接着，它输出专业评测诊断报告向客户输出针对性改进指导。

最后，平台顺理成章地亮出底牌：若要针对性优化模型能力？买我们独家的高质量人工微调数据集吧。

你不仅要为它指出你的弱点付费，还要采购对应的专业微调数据集。

正是依托这套系统，Scale AI 在 2024 年实现约 8.7 亿美元可观营收，毛利率稳定在 50% 左右。

资本给予了较高市场估值：Meta 在 2025 年出资 143 亿美元，拿下了 Scale AI 49% 的股份，直接将其估值推向了 290 亿美元的巅峰。

大模型开发商融来的巨额资金中，有相当大一部分，就这样以购买数据和评测服务的形式，悄无声息地流进了这些 " 卖水人 " 的口袋。

大模型时代的淘金热远未结束。

无论是北大团队试图用自然语言交互打破繁文缛节的开源破局，还是商业巨擘用数据服务闭环构建商业壁垒的资本布局。

都在印证商业发展中一个恒久不变的规律：

在巨头林立、竞争激烈的新兴技术赛道中，掌握最终定价权的，往往不是技术迭代最快、投入最高的企业。

而是牢牢扼住底层度量衡、负责制定游戏规则的那个 " 裁判 "。（本文首发钛媒体 App，作者｜ AGI-Signal，编辑｜林深）

声明：

本文分析基于开源库（如 OpenDCAI/One-Eval）、公开财务数据及行业报告梳理。投资与创业存在极大不确定性，需留意大模型技术快速迭代及估值波动带来的行业不确定性。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

10 小时测完 DeepSeek-V4！北大团队终结工程师噩梦？深扒大模型评测的“千亿生意”

宙世代

一起剪

相关阅读

首款华为MatePad Pro Max平板下月发布 国内有专属版本

“全球AI光算力第一股”来了！盘前交易大涨

未来已来，哪些广东AI机器人即将“上岗”？

新成果！我国太空金属3D打印技术在轨完成演示验证

继陶瓷、烟花之后，“一只鸭子”如何撑起醴陵的第三张城市名片？

5G标准必要专利全球排名：华为为何稳居第一 10年超1万亿研发投入

正大集团首次入局AI文娱，领投星迹互动，用“IP+出海”重做内容生意

国产越来越强了！三星将停止在中国销售家电及电视产品 竞争力下滑

美年健康：年报业绩“含AI量”持续提升，AI相关营收达3.7亿元

芯驰科技2026年发布多款车规芯片，智能座舱与MCU市占率居本土首位，并布局具身智能领域

性能最激进的安卓旗舰！一加16已在路上：首批搭载满血版骁龙8E6 Pro

广东这场AI大会满场都是硬核科技“显眼包”

这部黑白蜘蛛侠，能治好超英剧的＂作业病＂吗？

真人秀家庭生到第6胎：流量密码还是真实生活？

5G标准必要专利全球排名出炉：华为断层第一！小米第八

最新评论

钛媒体

热门推荐

企业资讯

首款华为MatePad Pro Max平板下月发布国内有专属版本

国产越来越强了！三星将停止在中国销售家电及电视产品竞争力下滑