关于ZAKER 合作
硅星人 30分钟前

CLI-Anything 、CrewAI、LangGraph、EigenFlux

Harness 是目前 AI Agent 基础设施领域最具参考价值的架构框架之一。它将 Agent 的运行所需拆解为七大核心模块:从工具接入、编排协调,到记忆管理、安全防护、网络通信,清晰地勾勒出一个完整 Agent 系统的技术骨架。

围绕这七大模块,开源社区已经涌现出大量活跃项目,覆盖了 Agent 开发的几乎每一个环节。对于创业团队和小型公司来说,不需要从零搭建,也不必依赖大厂的全家桶:沿着 Harness 的架构地图,在每个模块中选择少而精的开源方案,就能快速拼出一套可靠的 Agent 基础设施。

本文从 Harness 架构的 AI Infra 出发,精选 10 个最具代表性的开源项目,逐一拆解它们解决什么问题、适合什么场景,帮助团队少走弯路,把基础设施搭对。

一、工具接入:让 AI 懂 " 做事 "

Agent 的推理能力突飞猛进,但 " 想明白 " 和 " 干得了 " 之间还隔着一道鸿沟。大多数 AI 目前只能在对话框里输出文字,一旦需要操控真实软件、访问在线平台、调用各种 API,就撞上了工具接入的墙——要么没有接口,要么接口残缺,要么接入成本太高。这一层要解决的核心问题就是:怎么让 Agent 从 " 能想 " 变成 " 能做 "。

推荐:CLI-Anything

HKUDS/CLI-Anything

项目介绍

CLI-Anything 的思路是:既然 CLI(命令行)是人和 AI 都能流畅使用的 " 万能语言 " ——结构化、可组合、自描述——那就把任何软件自动转成 CLI 工具。它搭了一条七阶段全自动流水线,从源码分析到架构设计,再到实现、测试、文档生成,一路走完直接输出生产级的命令行工具。不是简陋的 wrapper,它要可以真正调用软件底层:比如 Blender 的后台渲染、GIMP 的 Batch 模式、Audacity 的音频处理等。

团队背景

项目出自香港大学数据科学实验室(HKUDS),2026 年 3 月正式发布。目前已经为 20 多款主流软件生成了生产级 CLI,跑通了 2,005 项测试(包括 1,453 个单元测试和 533 个端到端测试),通过率 100%。GitHub 上拿到了 25800 颗星,Claude Code、OpenClaw、GitHub Copilot CLI 等主流 Agent 平台都已接入支持。

为什么值得关注

目前让 Agent 操控真实专业软件的方案里,CLI-Anything 可能是最靠谱的。GUI 自动化天然脆弱——界面一改就崩,而 CLI 是稳定、可预测的接口。对于需要 Agent 控制 GIMP、Blender、LibreOffice 等专业工具的团队,这个项目直接把 "Agent 手太短 " 的问题解决了,而且 100% 测试通过率意味着它不是个 demo,是真能上生产环境的东西。

推荐:OpenCLI

https://opencli.info/

OpenCLI 把任何网站、Electron 桌面应用、本地二进制文件统一转化为标准化 CLI。杀手级特性是浏览器 session 复用:通过 Chrome 扩展桥接用户已登录的会话,不需要 API key 和 OAuth,登录过就能用。架构上双引擎设计—— YAML 声明式管道处理简单提取,TypeScript 适配器应对复杂交互——已覆盖 80+ 平台。

创始人 jackwener 是 Apache Arrow、DataFusion、Doris 的 PMC 成员,曾任职于字节跳动等公司。GitHub 13,200+ 颗星。

浏览器 session 复用省掉了 API key 和 OAuth 两个最大的摩擦点,对需要 Agent 操控社交媒体、内容平台的团队来说是巨大的效率提升。

二、编排:让多 Agent 像团队一样协作

单个 Agent 再强,也只能干一个人的活。真正复杂的任务——比如 " 帮我调研一个行业、写一份报告、找三个专家验证观点 " ——需要多个 Agent 像团队一样分工、协作、汇总。编排层要解决的就是这个问题:谁负责什么、谁先谁后、中间状态怎么传递、出了错怎么回滚。目前主流的两种思路,一种是 " 像组织团队一样直觉 ",另一种是 " 像画流程图一样精确 "。

推荐:LangGraph

langchain-ai/langgraph

LangGraph 用图计算重写了编排逻辑——节点代表 Agent 或函数,边定义数据流向和条件跳转,StateGraph 维护全局可持久化的状态空间。提供的是低级原语,让开发者精确控制每一步执行,Agent 可以暂停、恢复、长期运行,关键节点可插入人工审批。

LangChain 团队开发,GitHub 28,500 颗星,2025 年 9 月推出 1.0 Alpha。Klarna、Replit、Elastic 等已在生产环境使用。

核心优势是可控性——每个节点、每条边、每次状态变更都在开发者手里。学习曲线更陡,但换来的是生产环境里的可预测性。适合长期运行的 Agent 和对可审计性有刚需的团队。

推荐:CrewAI

crewai.com

CrewAI 的核心概念就三个:Agent(角色)、Crew(团队)、Task(任务)——定义几个有专长的 AI 角色,组成团队,分配任务,像同事一样协作。技术上独立于 LangChain 从零构建,QA 任务实测比 LangGraph 快 5.76 倍。双模式架构:Crews 模式 Agent 自治决策,适合探索性任务;Flows 模式事件驱动精确控制,适合生产环境。

创始人 Jo o Moura 曾在 Clearbit 负责 AI 工程,2024 年获 1,800 万美元融资(Insight Partners 等),GitHub 38,100 颗星,10 万 + 认证开发者。

概念最直觉、上手最快的多 Agent 框架。跟 LangGraph 是不同哲学:CrewAI 适合 " 先跑起来再说 ",LangGraph 适合 " 每一步都要精确控制 "。内容生产流水线或快速原型落地的首选。

三、记忆层:让 AI 拥有 " 记忆 "

目前绝大多数 AI 都是 " 金鱼记忆 " ——对话结束,上下文清零,下次再来全得从头说起。这在闲聊场景里还能忍,一旦 Agent 要做长周期任务(持续跟进一个项目、记住用户的偏好和历史、在多次交互中积累认知),没有记忆就是致命短板。记忆层要解决的不只是 " 记住 ",还有 " 记住什么 "、" 怎么管理 "、" 坏了怎么办 "。这个赛道正在快速分化:有人做开源记忆 SDK,有人做企业级记忆基础设施。

推荐:Mem0

Mem0 在 AI 和用户之间加了一层记忆基础设施,让 Agent 跨会话记住偏好、历史和关键上下文。技术上用向量数据库做语义检索 + 图数据库做关系推理,配合自适应衰减机制——重要记忆强化,过时记忆淡出。实测比 OpenAI 自带记忆准确率高 26%,响应快 91%,Token 降低 90%。

CTO Deshraj Yadav 曾是特斯拉 Autopilot AI 平台负责人,YC S24 出身,累计融资 2,400 万美元。GitHub 52,000+ 颗星,已集成 LangGraph、CrewAI 等主流框架。

记忆层赛道星数最高、集成最广的开源项目,做个性化 AI 助手几乎是必选项。跟 MemoryLake 不是竞品—— Mem0 是开源记忆 SDK,MemoryLake 是企业级记忆平台,不同切面。

推荐:MemoryLake

https://app.memorylake.ai

质变科技打造的企业级多模态 AI 记忆平台(商业产品,非开源),定位独立于模型厂商的中立记忆基础设施。核心理念是从 " 数据中心 " 范式转向 " 记忆中心 " 范式——处理的不是行为记录,而是决策轨迹。2026 年 3 月发布 " 龙虾版 ",推出 " 记忆护照 " 方案,让 AI 记忆可以在不同平台间无缝迁移。已在游戏 NPC 到企业决策等超大规模场景落地。

创始人占超群曾任阿里云核心管理成员,从零搭建了国内营收最高的云原生数仓体系。高瓴创投、光速光合数千万美元融资,估值超 2 亿美金。

" 记忆护照 " 概念有前瞻性:AI 记忆不应被锁死在某个平台里。团队有阿里云级别的基础设施经验,这是把记忆系统做到企业级、大规模、可迁移的稀缺能力。

四、可观测性:给 Agent 装 " 监控器 "

LLM 应用最让人头疼的事情之一是:出了问题,你根本不知道问题出在哪。模型幻觉了?工具调用失败了?推理链在某一步走歪了?传统软件有完善的日志和调试工具,LLM 应用到现在还在靠 " 看输出猜哪里崩了 "。可观测性这一层就是要把黑箱打开——完整记录 Agent 的每一步决策、每一次工具调用、每一轮推理,让开发者能像调试代码一样调试 AI。

推荐:Opik

comet.com/opik

Opik 覆盖 LLM 应用从开发到生产的全生命周期。除了全链路追踪和评估外,差异化卖点包括:内置成本分析(按模型、用户、会话维度拆账),Pytest 集成支持 CI/CD 自动化测试,Agent Optimizer 做性能调优,Guardrails 提供 PII 检测和输入输出过滤。日均支撑 4,000 万 + traces。

出自 Comet ML(2017 年成立的 MLOps 公司),累计融资 7,000 万美元。2024 年 9 月把七年 MLOps 经验重构为 Opik,GitHub 18,700 颗星。

最大差异化是成本核算:LLM 上规模后 Token 拆账是刚需。七年 MLOps 积累带来的企业级成熟度,比其他从零起步的项目更有机会。

推荐:Langfuse

langfuse.com

Langfuse 核心能力三块:全链路追踪(LLM 调用、工具调用、检索一个不漏,多步推理图形化展示)、Prompt 管理(版本控制、A/B 测试、不需要改代码)、评估体系(LLM-as-Judge、人工标注、实验管理)。全异步设计,对生产性能几乎零影响。

YC W23 出身,2026 年 1 月被 ClickHouse 收购。GitHub 24,400 颗星,已集成 50 多个框架,支持云端和自托管两种部署。

LLM 可观测性领域的事实标准。被 ClickHouse 收购本身就是信号:可观测性是 LLM 上生产的必备基础设施。跟 Opik 的差异在于 Langfuse 更聚焦可观测性单点,Opik 覆盖全生命周期。

五、安全防护:给 Agent 装 " 护栏 "

Agent 越能干,风险越大。当 Agent 可以执行代码、调用 API、操控软件、读写文件,它就不再只是一个 " 聊天机器人 ",而是一个有真实行动能力的系统。技能投毒、记忆污染、提示词注入、权限越界——这些不是假想的学术问题,而是已经在生产环境中出现的真实威胁。安全防护这一层要做的,是在不削弱 Agent 能力的前提下,给它画好边界。

推荐:ClawAegis

首个针对 OpenClaw 的全命周期安全防御系统。五层纵深防御:基础扫描→输入过滤→认知状态监控→决策对齐→执行权限控制。以插件形式部署,无需改框架代码,支持 monitor 和 enforce 两种模式。

蚂蚁集团 AI 安全实验室 × 清华大学联合开发,2026 年 4 月 2 日开源。团队此前已向 OpenClaw 提交 33 个安全漏洞(8 个已修复),有真实攻防实战经验。

Agent 安全赛道几乎空白,ClawAegis 是为数不多的生产级方案。对生产环境跑 OpenClaw 的团队来说,这不是 " 好用 " 的问题,是 " 该不该裸奔 " 的问题。

六、网络通信:让 Agent 互联

目前几乎所有 Agent 都是孤岛:各干各的,互相不知道对方的存在,更谈不上信息共享和协作。但当 Agent 数量爆发之后,"Agent 之间怎么找到彼此、怎么交换信息 " 会变成一个真实的基础设施需求,就像互联网早期需要 DNS 和 TCP/IP 一样。这一层还非常早期,但方向已经有人在探了。

推荐:EigenFlux

https://www.eigenflux.ai/

EigenFlux 给 Agent 建了一个广播网络。基于发布 - 订阅模式:Agent 向网络广播信息,其他 Agent 按画像订阅。内置 AI 匹配引擎、Bloom Filter 去重、多级缓存,底层用 Go + CloudWeGo 微服务构建,支持本地部署保证隐私。

出自 Phronesis AI,据官方介绍,团队来自 MiniMax、Bytedance 和 Meta,除资深的 LLM 研究 & 训练和 Agent 工程背景外,团队成员还曾深度参与抖音 0-1,以及 Meta 社交网络的部分工作

还很早期,但方向有想象空间 : 大多数框架在解决 " 单个 Agent 怎么更强 ",EigenFlux 在解决 " 多个 Agent 怎么联网 "。值得保持关注的早期赌注。

相关阅读

最新评论

没有更多评论了
硅星人

硅星人

硅是创造未来的基础,欢迎登陆硅星球。

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容