Harness 是目前 AI Agent 基础设施领域最具参考价值的架构框架之一。它将 Agent 的运行所需拆解为七大核心模块:从工具接入、编排协调,到记忆管理、安全防护、网络通信,清晰地勾勒出一个完整 Agent 系统的技术骨架。
围绕这七大模块,开源社区已经涌现出大量活跃项目,覆盖了 Agent 开发的几乎每一个环节。对于创业团队和小型公司来说,不需要从零搭建,也不必依赖大厂的全家桶:沿着 Harness 的架构地图,在每个模块中选择少而精的开源方案,就能快速拼出一套可靠的 Agent 基础设施。
本文从 Harness 架构的 AI Infra 出发,精选 10 个最具代表性的开源项目,逐一拆解它们解决什么问题、适合什么场景,帮助团队少走弯路,把基础设施搭对。
一、工具接入:让 AI 懂 " 做事 "
Agent 的推理能力突飞猛进,但 " 想明白 " 和 " 干得了 " 之间还隔着一道鸿沟。大多数 AI 目前只能在对话框里输出文字,一旦需要操控真实软件、访问在线平台、调用各种 API,就撞上了工具接入的墙——要么没有接口,要么接口残缺,要么接入成本太高。这一层要解决的核心问题就是:怎么让 Agent 从 " 能想 " 变成 " 能做 "。
推荐:CLI-Anything
项目介绍
CLI-Anything 的思路是:既然 CLI(命令行)是人和 AI 都能流畅使用的 " 万能语言 " ——结构化、可组合、自描述——那就把任何软件自动转成 CLI 工具。它搭了一条七阶段全自动流水线,从源码分析到架构设计,再到实现、测试、文档生成,一路走完直接输出生产级的命令行工具。不是简陋的 wrapper,它要可以真正调用软件底层:比如 Blender 的后台渲染、GIMP 的 Batch 模式、Audacity 的音频处理等。
团队背景
项目出自香港大学数据科学实验室(HKUDS),2026 年 3 月正式发布。目前已经为 20 多款主流软件生成了生产级 CLI,跑通了 2,005 项测试(包括 1,453 个单元测试和 533 个端到端测试),通过率 100%。GitHub 上拿到了 25800 颗星,Claude Code、OpenClaw、GitHub Copilot CLI 等主流 Agent 平台都已接入支持。
为什么值得关注
目前让 Agent 操控真实专业软件的方案里,CLI-Anything 可能是最靠谱的。GUI 自动化天然脆弱——界面一改就崩,而 CLI 是稳定、可预测的接口。对于需要 Agent 控制 GIMP、Blender、LibreOffice 等专业工具的团队,这个项目直接把 "Agent 手太短 " 的问题解决了,而且 100% 测试通过率意味着它不是个 demo,是真能上生产环境的东西。
推荐:OpenCLI
https://opencli.info/

创始人 jackwener 是 Apache Arrow、DataFusion、Doris 的 PMC 成员,曾任职于字节跳动等公司。GitHub 13,200+ 颗星。
浏览器 session 复用省掉了 API key 和 OAuth 两个最大的摩擦点,对需要 Agent 操控社交媒体、内容平台的团队来说是巨大的效率提升。
二、编排:让多 Agent 像团队一样协作
单个 Agent 再强,也只能干一个人的活。真正复杂的任务——比如 " 帮我调研一个行业、写一份报告、找三个专家验证观点 " ——需要多个 Agent 像团队一样分工、协作、汇总。编排层要解决的就是这个问题:谁负责什么、谁先谁后、中间状态怎么传递、出了错怎么回滚。目前主流的两种思路,一种是 " 像组织团队一样直觉 ",另一种是 " 像画流程图一样精确 "。
推荐:LangGraph
LangGraph 用图计算重写了编排逻辑——节点代表 Agent 或函数,边定义数据流向和条件跳转,StateGraph 维护全局可持久化的状态空间。提供的是低级原语,让开发者精确控制每一步执行,Agent 可以暂停、恢复、长期运行,关键节点可插入人工审批。
LangChain 团队开发,GitHub 28,500 颗星,2025 年 9 月推出 1.0 Alpha。Klarna、Replit、Elastic 等已在生产环境使用。
核心优势是可控性——每个节点、每条边、每次状态变更都在开发者手里。学习曲线更陡,但换来的是生产环境里的可预测性。适合长期运行的 Agent 和对可审计性有刚需的团队。
推荐:CrewAI

创始人 Jo o Moura 曾在 Clearbit 负责 AI 工程,2024 年获 1,800 万美元融资(Insight Partners 等),GitHub 38,100 颗星,10 万 + 认证开发者。
概念最直觉、上手最快的多 Agent 框架。跟 LangGraph 是不同哲学:CrewAI 适合 " 先跑起来再说 ",LangGraph 适合 " 每一步都要精确控制 "。内容生产流水线或快速原型落地的首选。
三、记忆层:让 AI 拥有 " 记忆 "
目前绝大多数 AI 都是 " 金鱼记忆 " ——对话结束,上下文清零,下次再来全得从头说起。这在闲聊场景里还能忍,一旦 Agent 要做长周期任务(持续跟进一个项目、记住用户的偏好和历史、在多次交互中积累认知),没有记忆就是致命短板。记忆层要解决的不只是 " 记住 ",还有 " 记住什么 "、" 怎么管理 "、" 坏了怎么办 "。这个赛道正在快速分化:有人做开源记忆 SDK,有人做企业级记忆基础设施。
推荐:Mem0

CTO Deshraj Yadav 曾是特斯拉 Autopilot AI 平台负责人,YC S24 出身,累计融资 2,400 万美元。GitHub 52,000+ 颗星,已集成 LangGraph、CrewAI 等主流框架。
记忆层赛道星数最高、集成最广的开源项目,做个性化 AI 助手几乎是必选项。跟 MemoryLake 不是竞品—— Mem0 是开源记忆 SDK,MemoryLake 是企业级记忆平台,不同切面。
推荐:MemoryLake

创始人占超群曾任阿里云核心管理成员,从零搭建了国内营收最高的云原生数仓体系。高瓴创投、光速光合数千万美元融资,估值超 2 亿美金。
" 记忆护照 " 概念有前瞻性:AI 记忆不应被锁死在某个平台里。团队有阿里云级别的基础设施经验,这是把记忆系统做到企业级、大规模、可迁移的稀缺能力。
四、可观测性:给 Agent 装 " 监控器 "
LLM 应用最让人头疼的事情之一是:出了问题,你根本不知道问题出在哪。模型幻觉了?工具调用失败了?推理链在某一步走歪了?传统软件有完善的日志和调试工具,LLM 应用到现在还在靠 " 看输出猜哪里崩了 "。可观测性这一层就是要把黑箱打开——完整记录 Agent 的每一步决策、每一次工具调用、每一轮推理,让开发者能像调试代码一样调试 AI。
推荐:Opik

出自 Comet ML(2017 年成立的 MLOps 公司),累计融资 7,000 万美元。2024 年 9 月把七年 MLOps 经验重构为 Opik,GitHub 18,700 颗星。
最大差异化是成本核算:LLM 上规模后 Token 拆账是刚需。七年 MLOps 积累带来的企业级成熟度,比其他从零起步的项目更有机会。
推荐:Langfuse

YC W23 出身,2026 年 1 月被 ClickHouse 收购。GitHub 24,400 颗星,已集成 50 多个框架,支持云端和自托管两种部署。
LLM 可观测性领域的事实标准。被 ClickHouse 收购本身就是信号:可观测性是 LLM 上生产的必备基础设施。跟 Opik 的差异在于 Langfuse 更聚焦可观测性单点,Opik 覆盖全生命周期。
五、安全防护:给 Agent 装 " 护栏 "
Agent 越能干,风险越大。当 Agent 可以执行代码、调用 API、操控软件、读写文件,它就不再只是一个 " 聊天机器人 ",而是一个有真实行动能力的系统。技能投毒、记忆污染、提示词注入、权限越界——这些不是假想的学术问题,而是已经在生产环境中出现的真实威胁。安全防护这一层要做的,是在不削弱 Agent 能力的前提下,给它画好边界。
推荐:ClawAegis
首个针对 OpenClaw 的全命周期安全防御系统。五层纵深防御:基础扫描→输入过滤→认知状态监控→决策对齐→执行权限控制。以插件形式部署,无需改框架代码,支持 monitor 和 enforce 两种模式。
蚂蚁集团 AI 安全实验室 × 清华大学联合开发,2026 年 4 月 2 日开源。团队此前已向 OpenClaw 提交 33 个安全漏洞(8 个已修复),有真实攻防实战经验。
Agent 安全赛道几乎空白,ClawAegis 是为数不多的生产级方案。对生产环境跑 OpenClaw 的团队来说,这不是 " 好用 " 的问题,是 " 该不该裸奔 " 的问题。
六、网络通信:让 Agent 互联
目前几乎所有 Agent 都是孤岛:各干各的,互相不知道对方的存在,更谈不上信息共享和协作。但当 Agent 数量爆发之后,"Agent 之间怎么找到彼此、怎么交换信息 " 会变成一个真实的基础设施需求,就像互联网早期需要 DNS 和 TCP/IP 一样。这一层还非常早期,但方向已经有人在探了。
推荐:EigenFlux
https://www.eigenflux.ai/

出自 Phronesis AI,据官方介绍,团队来自 MiniMax、Bytedance 和 Meta,除资深的 LLM 研究 & 训练和 Agent 工程背景外,团队成员还曾深度参与抖音 0-1,以及 Meta 社交网络的部分工作
还很早期,但方向有想象空间 : 大多数框架在解决 " 单个 Agent 怎么更强 ",EigenFlux 在解决 " 多个 Agent 怎么联网 "。值得保持关注的早期赌注。