
操刀的是北京大学 DCAI 团队。
他们刚刚开源了一个面向大模型评测的新框架—— One-Eval。
很多人可能会问:10 个小时,很快吗?
在真实的 AI 工程界,这一效率提升堪称行业范式级突破。


你要自己写下载脚本、耗费精力做字段适配、调试各类复杂配置参数。
跑完之后还没完,你还得在繁杂运行日志中排查解析异常问题。
简单来说:真正用来让模型跑分的时间,还不如搭测试管道花的时间多。

真实的商业世界里,评测绝不仅仅是一份吃瓜群众爱看的跑分排行榜。
它是一门关于标准定义、数据壁垒与行业需求的顶级生意。
算力时代的评测痛点:传统评测行业积弊已久
为什么要拼了命地评测大模型?
因为千亿参数的模型训练太烧钱了。
对于底层模型厂商来说,评测分数是企业融资、获取算力资源的重要依据。
对于 B 端企业客户来说,分数就是决定要不要把核心业务(比如金融风控、医疗诊断)交给这个 AI 来处理的重要决策依据。
这催生了 OpenCompass 等一批优秀的传统评测框架。但随着模型越来越复杂,传统评测的静态模式弊端被彻底暴露了。

太黑盒。跑完只丢给你一个单一的量化分数。至于提示词是怎么拼的?评分规则、模型打分依据均无透明可查记录。一旦出了 Bug,排查起来难度极大、无从溯源。

模型在训练时 " 偷看 " 了考卷,这叫数据污染。
当所有的 AI 在基础测试里都能考出 95 分的高分时,榜单就失去了公信力。为了对抗这种污染,行业内甚至被迫引入检测模型对特定数据的置信度等手段,来甄别数据污染行为。

当传统框架还停留在高度人工依赖的老旧模式时,北大团队开源的 One-Eval,直接推出了 " 智能体化 " 的全新解法。
它完成了一次彻底的交互降维:不再是 " 写配置跑脚本 ",而是自然语言驱动。
你只需要在对话框里敲一句大白话:" 我想测试我的模型在金融、法律、医疗领域的表现,并看看幻觉情况如何。"

它会自动识别你的意图,并匹配工具:指令跟随用 IFEval,医疗用 MedQA,法律用 LegalBench,金融用 FinanceQA。
选好之后,结构解析、参数配置、底层数据拉取,全部由系统后台静默完成。
一行配置都不用写。

One-Eval 引入了基于全局状态(Global State)的数据总线架构。评测的完整生命周期都被记录下来,一旦报错,断点清晰可见,全链路可追溯。

在系统给出评测方案时,它会主动停下来,把上下文展示给你,等待人工审核确认后,再继续执行。

当然,作为一款新生的开源工具,它也有当前的能力边界与适配局限。
根据其文档与架构特征,目前 One-Eval 内置的基准主要覆盖纯文本能力。
如果你需要测试非常复杂的真实软件工程能力(比如需要独立 Docker 沙盒环境的代码执行测试),目前依然是它的能力盲区。
行业深层收益:评测赛道的商业逻辑
如果说 One-Eval 是铺设铁路的修路大军,那么在铁路上建立行业服务壁垒、提供专业商业化服务,则是深谙行业商业化与资本运作逻辑。
这绝不仅是一个 " 卖软件授权 " 的单纯工具授权生意。

一边是持续融资布局的大模型研发企业,一边是急于把 AI 接入业务的《财富》500 强企业。

第一重:收取基础的企业服务费用
对于企业内部日常的自动化评测需求,商业平台切入了合规刚需。提供企业级的审计日志、权限管理等服务,按 API 调用量或席位收取合理的商业化服务费用。这构成了他们极其稳定的现金流底座。

既然开源考卷被污染了,高分没人信了,商业公司顺势就接管了重新定义行业评测标准体系。
比如行业巨头 Scale AI,他们推出了全新的 SEAL 排行榜。
这个榜单不玩静态代码谜题,直接引入真实人类专家进行盲测比对,从机制上规避数据泄露与刻意刷榜行为。
逻辑瞬间质变:基础模型公司如果想向投资人证明自己比竞品强,就必须花重金购买这种不可篡改的私有评测认证。
这就如同在开展商业化落地与资本市场估值前,你必须采购专业机构的权威评测认证。

这是这门生意最核心的护城河,也是最具核心壁垒的商业闭环。
首先,评测系统通过大规模并发,精准定位模型在细分场景的能力短板与逻辑缺陷。
紧接着,它输出专业评测诊断报告向客户输出针对性改进指导。
最后,平台顺理成章地亮出底牌:若要针对性优化模型能力?买我们独家的高质量人工微调数据集吧。
你不仅要为它指出你的弱点付费,还要采购对应的专业微调数据集。

资本给予了较高市场估值:Meta 在 2025 年出资 143 亿美元,拿下了 Scale AI 49% 的股份,直接将其估值推向了 290 亿美元的巅峰。


无论是北大团队试图用自然语言交互打破繁文缛节的开源破局,还是商业巨擘用数据服务闭环构建商业壁垒的资本布局。
都在印证商业发展中一个恒久不变的规律:
在巨头林立、竞争激烈的新兴技术赛道中,掌握最终定价权的,往往不是技术迭代最快、投入最高的企业。
而是牢牢扼住底层度量衡、负责制定游戏规则的那个 " 裁判 "。(本文首发钛媒体 App,作者| AGI-Signal,编辑|林深)
声明:
本文分析基于开源库(如 OpenDCAI/One-Eval)、公开财务数据及行业报告梳理。投资与创业存在极大不确定性,需留意大模型技术快速迭代及估值波动带来的行业不确定性。