关于ZAKER 开放平台 合作
AI寒武纪 14小时前

Kimi 2.6 深夜正式发布 : 对标 opus 4.6, 刷新开源编程天花板

月之暗面正式上线并开源了新模型 Kimi K2.6,从官方公布的 benchmark 来看,代码能力追平或者超越 GPT 5.4 和 opus 4.6,非常能打,当然与 A 厂刚发布 Mythos 和 opus 4.7 还有差距,我先放一张开源和闭源整体对比图,大家看看:

具体来看在多个主流基准上,Kimi K2.6 拿下开源最好成绩:HLE(含工具)54.0,SWE-Bench Pro 58.6,SWE-bench 多语言 76.7,BrowseComp 83.2,Toolathlon 50.0,Charxiv(含 Python)86.7,Math Vision(含 Python)93.2。

模型现已上线 Kimi.com 的对话模式与智能体模式,

生产级编程场景可搭配 Kimi Code 使用:

https://kimi.com/code

API 接入:

https://platform.moonshot.ai

技术博客:

https://kimi.com/blog/kimi-k2-6

模型权重与代码:

https://huggingface.co/moonshotai/Kimi-K2.6

长周期编程

Kimi K2.6 在长周期编程任务上有明显提升,支持跨语言(Rust、Go、Python)和跨任务类型(前端、DevOps、性能优化)的稳定泛化。

官方展示了两个实测案例。

第一个:在 Mac (M3 max)上本地部署 Qwen3.5-0.8B 模型,并用 Zig 语言实现推理优化。整个过程共调用工具 4000 余次,持续执行超过 12 小时,经历 14 次迭代,最终将吞吐量从约 15 tokens/sec 提升至约 193 tokens/sec,比 LM Studio 快约 20%。

第二个:自主重构一个有 8 年历史的开源金融撮合引擎 exchange-core。执行历时 13 小时,遍历 12 种优化策略,调用工具逾 1000 次,精确修改超过 4000 行代码。模型分析了 CPU 和内存火焰图,定位瓶颈后重新设计了核心线程拓扑结构(从 4ME+2RE 调整为 2ME+1RE)。最终,中等吞吐量提升 185%(0.43 MT/s 到 1.24 MT/s),峰值吞吐量提升 133%(1.23 MT/s 到 2.86 MT/s)。

前端生成

在编程能力基础上,Kimi K2.6 可以从简单提示词直接生成完整前端界面,包括带视觉设计的 hero 区块、滚动触发动效、WebGL 着色器、GSAP+Framer Motion 动画以及 Three.js 三维效果。

在图像和视频生成工具的配合下,模型还能生成视觉风格统一的配套素材。

此外,K2.6 已延伸到轻量全栈开发,覆盖用户认证、交互逻辑到数据库操作(如事务记录、会话管理)的完整链路。

月之暗面建立了内部基准 Kimi Design Bench,分为四个类别:视觉输入任务、落地页构建、全栈应用开发和创意编程。与 Google AI Studio 对比,Kimi K2.6 在各类别均表现良好。

智能体集群

Kimi K2.6 的智能体集群架构在 K2.5 研究预览版基础上做了大幅扩展:并发子智能体数量从 100 个扩展到 300 个,协同步骤数从 1500 步扩展到 4000 步。

集群可以将不同能力的智能体组合调度,包括广度搜索与深度研究的叠加、大规模文档分析与长文写作的融合,以及多格式内容的并行生成。单次自主运行即可输出文档、网页、幻灯片、表格等多种形式的完整交付物。

集群还支持将高质量文件(PDF、表格、PPT、Word 文档)转化为可复用的技能,保留原始文档的结构和格式特征,供后续任务复现。

持续自主运行

Kimi K2.6 为 OpenClaw、Hermes Agent 等智能体提供底层支持,支持跨应用、全天候的持续运行。

在官方给出的一个内部案例中,月之暗面 RL 基础设施团队将一个基于 K2.6 的智能体连续运行了 5 天,期间该智能体自主处理监控告警、事故响应和系统运维,完整覆盖从告警触发到问题解决的全流程。

月之暗面内部评测套件 Claw Bench 涵盖编程任务、即时通讯生态集成、信息研究与分析、定时任务管理和记忆调用五个领域,K2.6 在全部指标上均明显优于 K2.5,尤其在无人监督的持续运行场景中提升更为突出。

开放智能体生态

在 K2.6 编排能力的基础上,月之暗面推出 Claw Groups(研究预览版)。

Claw Groups 支持异构生态:用户可以接入来自任意设备、运行任意模型的智能体,每个智能体携带各自的专属工具、技能和持久化记忆上下文,无论部署在本地笔记本、移动设备还是云端实例,均可无缝接入同一协作空间。

K2.6 在集群中担任动态协调者,根据智能体的技能图谱和可用工具进行任务分配,并在某个智能体失败或卡住时自动接管,重新分配任务或拆解子任务,管理从启动到验收的完整交付生命周期。

目前,月之暗面已将 Claw Groups 用于自身的内容生产和发布工作,由 Demo Maker、Benchmark Maker、社媒智能体、视频制作智能体等专项智能体协作完成端到端的内容生产流程,K2.6 负责统筹协调,各智能体之间共享中间成果。#kim26

官方详细内容在这里:

https://www.kimi.com/blog/kimi-k2-6

真实能力如何,以你的体验为准

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容