关于ZAKER 合作
钛媒体 8小时前

又是量化基金,第二个 DeepSeek 时刻到来了?

文 | 字母 AI

九坤投资旗下的至知创新研究院发布了开源编程 Agent 模型 IQuest-Coder-V1。至知研究院在 AI 领域名气不大,但这个模型的 benchmark 数据直接对标了行业顶尖水平。

母公司是量化私募,发布时间是 1 月,这两个特征组合在一起,很容易让人想起去年同期的 DeepSeek R1。

事实上,去年 DeepSeek R1 发布的时候也是相同的情况,一个知名度不高的公司,发布了一个行业顶尖的模型。

那么 IQuest-Coder-V1 会是下一个 "DeepSeek 时刻 " 吗?

暂时还不好下结论。

根据 JetBrains 的《2025 开发者生态系统现状报告》,全球 85% 的开发者已经在使用 AI 工具,全球 41% 的代码由 AI 生成,但这些工具大多停留在辅助层面。

从 OpenAI 到 Anthropic,各家在 2025 年底密集推出的 agent 产品,都将代码作为突破口。

所以至少可以肯定,编程 Agent 就是下一个风口。

01

IQuest-Coder-V1 不是一个简单的代码补全工具,而是一个能够自主完成软件工程全流程的代码大语言模型。

过去的 AI 编程助手的作用是自动补全,你写一半代码,它帮你接下去。而 IQuest-Coder-V1 则是能够从零开始理解需求、设计架构、编写代码、测试调试,甚至进行多轮迭代优化。

IQuest-Coder-V1 有三个很关键的技术点。

第一是 40B 的参数规模。相比 GPT-5 和 Gemini 3 等动辄数千亿参数的模型,40B 只是它们的几十分之一左右。

也就是说,IQuest-Coder-V1 可以在性能稍好的消费级硬件上运行,而不需要专业的数据中心级别算力。

第二个特点是 Loop 架构。

这个名字很直白,模型会循环迭代自己的输出。就像程序员写完代码会回过头检查、修改、重构一样,Loop 架构让模型在生成代码后能够反思和改进。

但 Loop 架构不是简单的多次调用,而是将迭代优化的过程内化到模型架构中。简单概括就是 IQuest-Coder-V1 会超额完成任务,以确保最终输出的结果覆盖用户的需求。

Loop 版本让模型 " 走两遍 " 相同的神经网络,就像你读文章时会回头重读关键段落,第二遍往往能发现第一遍没注意到的问题。

第三个特点是 code-flow 训练范式。

传统的代码模型学习的是代码片段,学习的是静态的语法和 API 调用模式。用大白话来解释,AI 可以完美复刻它所学习的代码,却不理解为什么要这么写。

但 IQuest-Coder-V1 学习的是软件如何一步步演化出来的,学习的是动态的逻辑演进。这让模型不仅理解 " 这段代码是什么 ",还理解 " 这段代码为什么这样写 "、" 下一步应该怎么改 "。

IQuest-Coder-V1 使用 32k 高质量轨迹数据进行强化学习训练,这些轨迹通过 multi-agent role-playing 自动生成。

系统会模拟用户、Agent、Server 三方交互,用户提出需求,Agent 编写代码,Server 返回执行结果,整个过程无需人工标注。训练目标不是单次代码生成,而是完整的软件演化过程。

这些技术设计在 benchmark 上得到了验证。在 SWE-Bench Verified 这个衡量真实软件工程能力的测试中,IQuest-Coder-V1 达到了 81.4% 的准确率,超过了 Claude Sonnet 4.5 的 77.2%。在 LiveCodeBench v6 上的表现是 81.1%,在 BigCodeBench 上是 49.9%。

IQuest-Coder-V1 来自九坤投资创始团队发起设立的至知创新研究院。这个研究院独立于九坤的量化投研体系,其职能是研究多个 AI 应用方向。

九坤投资本身是中国最早一批量化私募之一,成立于 2012 年,目前管理规模超过 600 亿人民币,和明汯、幻方、灵均并称量化 " 四大天王 "。

创始人王琛拥有清华大学数学物理学士和计算机博士学位,师从图灵奖唯一华人得主姚期智院士。联合创始人姚齐聪是北京大学数学学士、金融数学硕士。

两人都来自华尔街顶级对冲基金千禧年 ( Millennium ) ,2010 年看准中国股指期货上市的机遇回国创业。

九坤从 2020 年开始建设名为 " 北溟 " 的超算集群,内部设有 AI Lab、Data Lab 和水滴实验室。

这些基础设施原本服务于量化投资业务,现在也为大模型研发提供了算力支持。

量化机构拥有大规模算力集群和数据处理能力,这与大模型训练的资源需求相匹配。同时在人才结构上,量化投资和 AI 研究都需要数学、计算机背景的研究人员,这使得量化机构进入大模型领域时有一定的基础。

从量化投资到开源大模型,这条路径并不突兀。

量化机构本身就拥有大规模算力集群和海量数据处理能力,这与大模型训练的需求高度契合。更重要的是,量化投资和 AI 研究在人才结构上有很大重叠,都需要数学、计算机、物理背景的研究型人才。

因此从发展角度看,IQuest-Coder-V1 更像是九坤在 AI 方面的自然延伸,并非简单跟风。

02

但不可否认的是,IQuest 和 DeepSeek,两者有着惊人的相似性。

它们都来自中国量化基金,都展示了在资源受限情况下通过工程创新实现技术突破的能力。但仔细观察会发现,两者选择了完全相反的方向。

DeepSeek 追求的是 " 广度 "。从 DeepSeek-V3 到 R1,梁文锋团队的目标是打造通用对话能力,要做中国的 GPT。

它要回答各种领域的问题,要能写诗、讲故事、分析时事、解决数学题。这是一个横向扩张的路径,覆盖尽可能多的应用场景。

IQuest-Coder-V1 追求的是 " 精度 "。它专注在代码这个垂直领域,在 SWE-Bench 这样的专业测试上做到极致。它不关心能不能写诗,只关心能不能像真正的程序员一样理解需求、设计系统、解决 bug。

有意思的是,就在 IQuest-Coder-V1 发布的同一天,DeepSeek 团队也有新动作。

包括创始人梁文锋在内的 19 位研究者发布了关于 mHC ( manifold-constrained hyperconnection,流形约束超连接 ) 架构的论文。这篇论文解决的是超连接网络在大规模训练中的不稳定性问题。

虽然 DeepSeek 团队在研究工作上保持一定的更新频率,然而在产品方面,他们却显得有些落后,至今仍然没有拿出 R2 和 V4。

2025 年,AI 领域的竞争焦点是对话能力和推理能力,各家比的是谁能更好地回答问题,谁的推理过程更清晰。到了 2026 年,这个焦点已经转向 Agent 能力,比的是 AI 能否自主完成复杂的多步骤任务。

Agent 能力的核心是 " 执行 ",而不仅仅是 " 理解 " 和 " 回答 "。

就拿代码举例,一个对话型 AI 可以告诉你如何修复代码中的 bug,但 Agent 能直接帮你改好代码、运行测试、提交修改。这是完全不同的能力层级。

DeepSeek 团队在研究层面确实很活跃,不断发表论文推进底层技术。可一旦落实到产品就会发现,DeepSeek 仍然主要是一个对话型 AI。用户提问,它给答案,这是它的主要使用场景。

DeepSeek 目前还没有推出真正的 Agent 产品,没有像 IQuest-Coder 那样能自主完成整个软件开发流程的能力。

诚然,DeepSeek 在 Alpha Arena 这样的 AI 炒币 / 炒股比赛中表现很亮眼,证明了量化基金训练出的模型 " 真的懂市场 ",能读懂 K 线、解析新闻、做出交易决策。

而量化投资的本质是用算法理解市场规律,寻找价格波动中的模式。进一步说明 DeepSeek 具有 " 理解复杂系统 " 的能力。

但需要指出的是,即使在金融市场表现出色,这种能力仍停留在 " 理解 " 和 " 分析 " 层面。DeepSeek 可以分析市场、给出建议,但它作为产品还没有发展出完整的自主交易能力。

从炒股到写代码,幻方和九坤的 AI 都在展示同一种倾向,就是更强的执行导向。这或许能解释为什么量化基金能在 AI 领域做出成果,因为他们的基因就是 " 让算法自主决策 ",而不是 " 让算法回答问题 "。

现在关于 AI 的竞争不只是比谁的论文更多,更重要的是落地,是谁能把技术转化成用户可以直接使用的工具。

市场已经等了太久,梁文锋该发新产品了。

03

IQuest-Coder-V1 对标的是 Claude Opus 4.5。这个定位很明确,81.4% 对 80.9% 的 benchmark 数据也确实亮眼。

再加上 Anthropic 对华态度的强硬,也让人们对 Quest-Coder-V1 投入了更多的希望。但 " 取代 Claude Opus 4.5" 这个问题需要更冷静的分析。

Claude Opus 4.5 的优势不只在模型能力,更在于完整的产品生态。它有原生的 VS Code 扩展,有 Claude Code 这样面向终端的交互式开发工具,支持 MCP 协议的工具生态,有企业级的安全合规标准,还有无数真实项目打磨出的用户体验。这些都不是一个刚发布的模型能够在短期内复制的。

更重要的是用户习惯。Claude 发布得早,程序员群体已经习惯了它的 " 工作方式 ",知道什么时候该信任它,什么时候该介入,如何高效协作。

这种使用习惯的养成需要时间,需要在无数次试错中建立起来。一个新模型即使 benchmark 数据更好,也需要相当长的时间来培养用户信任。

benchmark 和实际应用之间确实存在差距。

虽说 SWE-Bench Verified 测试的是在真实代码仓库中解决 issue 的能力,这比简单的代码补全要复杂得多。然而即使在这样的测试中表现出色,也不等于在日常开发中就能无缝替代人类程序员。

实际工作中的需求往往是模糊的,在产品经理与开发者的沟通过程中,需求往往会改变很多,而这些都是 benchmark 上没有的。

不过 IQuest-Coder-V1 的机遇在于另一些维度。它是开源的,这意味着企业可以自己部署,可以根据需要调整和优化,不需要担心数据被第三方服务商获取。对于金融、医疗、国防等对数据安全有严格要求的行业,这是实实在在的价值。

这种开源代码大模型的体验,完全区别于 Claude 用户。Claude 的用户更多是习惯了云服务、愿意为便利性付费、对数据隐私没有极端要求的开发者。IQuest-Coder-V1 的潜在用户应该是需要数据自主可控的企业、想要深度定制的技术团队、或者就是喜欢折腾开源工具的开发者。

就比如做像九坤和幻方这样做量化的,他们的算法就是企业的命脉,不可能上传到公有云。

当然,开源也有开源的问题。没有专门的产品团队来打磨用户体验,没有客服来解决使用中的问题,遇到 bug 只能自己想办法或者等社区修复。这些都是开源模型相比商业产品的劣势。

有一种观点认为,像是 IQuest-Coder-V1 这样带有一定 agent 功能的代码大模型,可能是通向通用 agent 以及 AGI 的第一步。

这个观点的逻辑在于,代码是结构化的、逻辑清晰的任务,相比其他开放性任务更容易验证对错。测试通过与否,这种二元反馈为 agent 提供了明确的学习信号。

更重要的是,编程任务本身需要的能力是通用 agent 所需的核心能力。

从 SWE-Bench 这样的 benchmark 来看,它测试的不只是代码生成,而是理解需求、规划步骤、调试错误、迭代改进等能力。这个过程和解决其他复杂任务的模式是相通的。

代码环境提供了一个相对可控的训练场,一旦在这里证明了它的 Agent 能力,扩展到其他领域的技术路径就会更清晰。

所以,九坤可能也在下一盘大棋。

相关标签
ai