
比方说,企业数据团队在将 Agent 部署到生产环境时,经常会在数据层面遇到瓶颈。构建向量数据库、关系数据库、图数据库和湖仓等不同平台上的 Agent,需要同步数据管道以保持上下文信息的时效性。但在真实的生产环境中,这些上下文信息会逐渐过时。
这个问题的紧迫性,源于 Agent 与人类工程师截然不同的数据消费模式。
"Agent 正在一种极其活跃且激进的方式消费数据,它对于数仓或数据湖的调用频率是惊人的。"
亚马逊云科技技术副总裁 Mai-Lan Tomsen Bukovec 近日与笔者交流中指出,Agent 是一种通过 " 并行择优 " 的工作模式,即:不是一次一个查询,而是同时数十、上百个并行,通过比较来寻找最佳路径。这使得 Agent 成为比人类激进得多的数据消费者——调用频率高出几个数量级,数据吞吐量呈指数级增长。
Mai-Lan 进一步指出," 现在客户非常希望构建 Agent 基础设施,成本亦或者说性价比,不再是次要因素,而变成决定性因素。在未来半年到一年,随着 Agent 的爆发,底层数据服务的选择将变得至关重要。"
如今,OpenClaw 的狂欢正在消退,留下的正是对云厂商底层存算能力的压力测试警告。Mai-Lan 认为,亚马逊云科技在这一领域具备天然优势,Amazon S3 ( Amazon Simple Storage Service ) 的规模、Amazon Redshift 与 Amazon Athena 在高并发下的成本效率,正是为这种超大规模、超高频的 Agent 数据交互方式而准备。
时值 Amazon S3 产品诞生 20 周年,围绕 AI 时代客户对数据处理的诉求,Amazon S3 近期也实现了 S3 Table(表格式)、S3 Files(文件)、S3 Vector(向量)的三大变革。
如 S3 Table 对 Apache Iceberg 的原生支持。Mai-Lan 指出,Agent 在处理数据时,倾向于直接通过 SQL 与 Iceberg 格式的数据交互。其底层逻辑在于,Agent 构建于大模型之上,而大模型在训练过程中已对 SQL 语法和 Iceberg 数据格式形成成熟的处理能力。将所有表数据以 Iceberg 格式存放于 S3,使得 Agent 无需学习多种复杂的访问 API,即可高效处理数据。目前 Agent 与 S3 及 Iceberg 之间展现出高度的契合性。
当 Iceberg 能力被引入 S3 时,引发了新一轮创新浪潮,Postgres、Oracle 等数据源开始直接写入 Iceberg,Agent 系统则可直接与这些表进行交互。而随着 S3 Vectors 的推出,越来越多的 AI 应用开始将向量作为共享记忆载体,从而为 AI 交互体验注入 " 状态 "。
Mai-Lan 还指出,向量已被引入作为 S3 的原生数据类型。向量的应用主要集中于两个维度:一是通过向量为存储在 S3 中的数据构建上下文信息,二是将向量用作共享记忆。S3 Vectors 发布后的五个月内,市场反馈符合预期。大量客户开始使用该功能,通过嵌入模型生成向量以丰富数据的上下文。S3 Vectors 作为 Agent 系统记忆空间的使用率呈爆发式增长。
值得一提的是,S3 Files 于几周前发布,使 Agent 能够通过 POSIX 标准,即文件系统的方式处理 S3 中的数据。在 Agent 系统中,大模型高度关注 " 文件 " 这一形态,无论是 Python 库还是 Shell 脚本,均为大模型训练过程中所熟悉的内容,Agent 天然倾向于将文件作为数据接口。
为此,S3 Files 的设计思路是在 S3 存储桶上挂载一个 EFS 文件系统。通过该机制,用户可以基于 POSIX 标准在文件系统中处理 S3 数据:小文件可通过 EFS 缓存加速访问,大文件则直接从 S3 进行流式传输。这使得 Agent 能够以熟悉的文件系统语言与 S3 数据实现原生交互,并将共享文件系统视为来自 S3 的 " 共享记忆空间 "。
从大模型记忆能力的发展来看,这一进步具有重要意义。当前的 AI 体验正逐步引入更深层的对话上下文与个性化互动——无论是在 Agent 之间、人与 Agent 之间,还是 Agent 与数据之间,模型表现均在持续演进。通过文件系统这一自然接口的进一步扩展,Agent 系统的记忆能力有望获得更深层次的提升。
笔者注意到,从 2006 年以图像等半结构化数据为主,到后来的分析型数据,从最初的数仓到数据湖的兴起,亚马逊云科技目前正大力推动 Amazon S3 成为承载 AI 工作负载的关键底座,以适应当下客户的诉求。Mai-Lan 认为,Amazon S3 的设计核心是以经济的方式推动主流数据类型增长,并始终坚守数据的可用性、持久性和韧性等准则。而这也正是客户在 20 年间持续将其数据业务托付给 S3 的原因,也将承载其下一个 20 年的可能。
(本文作者 | 杨丽,编辑 | 杨林)