
高薪聘请专家进行 A/B 测试
在 Marlin 项目中,拥有软件工程背景的自由职业者被指示对两个不同模型生成的代码进行严格的 A/B 测试。知情人士透露,合同工每完成一项任务可获得 280 美元报酬,单次任务耗时约一小时。工作内容包括创建复杂的提示词(prompts)、审查代码质量,并在 Snorkel 的审核机制下反复修改提交内容。
根据项目指南,这些专家需从数千个 GitHub 仓库中选取目标,模拟真实开发场景创建 Pull Request(拉取请求),并设计特定指令以测试模型的响应能力。例如,在一个任务中,合同工要求模型重构系统处理 " 执行元数据 " 的方式,目标是在不改变功能的前提下,使代码更清晰、更易维护。在另一项涉及 MLFlow 的安全修复任务中,合同工需评估模型是否能在阻止命令注入的同时,允许合法的 pip 选项加载。
这一过程的核心在于训练 Claude Code 编写出更简化、更具生产就绪能力的代码。合同工需基于正确性、安全性、可靠性和可维护性等维度,选择更优的代码输出,并提供后续提示词以测试模型对对话上下文的处理能力。值得注意的是,参与评估的合同工并不知晓他们正在测试的具体模型版本。
数据标注向 " 专家级 " 转型
随着 AI 模型能力的跃升,数据标注行业正经历从通用型任务向高专业化领域的深刻转型。Snorkel AI 等平台不再仅依赖普通众包劳动力,而是招募拥有博士、医学博士或同等资深经验的专家。Snorkel 官网显示,其顶级专家的周薪可超过 3,000 美元。除 Snorkel 外,Scale AI 和 Mercor 等竞争对手也为软件工程师提供高达每小时 110 美元的薪酬,以争夺具备领域专业知识的人才。
Snorkel AI 由斯坦福研究人员于 2019 年创立,专为 Google、Mistral 和 Anthropic 等顶级实验室提供数据集构建及聊天机器人测试服务。据报道,该公司在 2025 年 5 月以 13 亿美元的估值完成了 1 亿美元的 D 轮融资,尽管此前曾传出裁员 13% 的消息。目前,Anthropic 和 Snorkel 均未就 Marlin 项目的具体细节回应置评请求。
【来源:星途科讯】