关于ZAKER Skills 合作
钛媒体 49分钟前

当大模型开始为 Agent “打工”

图片来源:unsplash

什么是 Agentic AI 时代到来最有力的象征?

或许,当大模型开始抢着为 Agent" 打工 " 时,AI 的新故事就开始了。

而在当下这个节点,国内外头部大模型几乎都在 Agent 方向上押注、探索了一段时间后,故事的主角也在悄然变换。

当 Agent 开始定义大模型

此前,有关 AI 大模型的一大质疑是其一直 " 飘 " 在云端,智能难以落地兑现实际的经济价值。今年以来,以 " 龙虾 OpenClaw" 为代表的 Agent" 破圈 " 席卷全球,其主动规划、执行任务的特点,被称作是让大模型长了 " 手和脚 "。

以 Anthropic 为代表,顶级大模型厂商迅速将大模型的发力方向从 AI Coding 等相对聚焦的赛道,切换或扩展至打造、发挥 Agent 能力。

不同于一手掀起生成式 AI 浪潮的 OpenAI,创始团队脱胎于前者的 Anthropic,并未将重点放在 C 端,而是从一开始就瞄准 B 端。这本就是看重实用性、生产力、兑现经济价值的市场,而接连踩中甚至引导了 Coding、Agent 浪潮后,Anthropic 的业绩和估值也均实现暴增。就在 5 月末,该公司宣布完成 H 轮 650 亿美元融资,投后估值高达 9650 亿美元,压过 OpenAI 一头。6 月初又有消息称,Anthropic 抢先 OpenAI 一步,秘密提交了招股意向书,或能率先完成 IPO。

而大模型与 Agent 的故事也仍在继续,更多新的尝试已经涌现。

近日,国产 AI 大模型头部公司阶跃星辰发布并开源了 Step 3.7 Flash 模型,主打面向真实的 Agent 工作流,聚焦如何高效解决 Agent、多模态、Search 与 Coding 任务。

该公司近来颇受市场瞩目,在年初完成 50 亿人民币 B+ 轮融资后,5 月又爆出消息称阶跃星辰新一轮 25 亿美金融资也接近完成,赴港上市节奏在加快,很有可能成为智谱、MiniMax 之后第三家登陆港交所的国产大模型公司。

据了解,5 月末曾有行业观察者点评国产大模型厂商动态时称,在 IPO 预期下,阶跃近期可能会集中 " 亮牌 ",拿出更多能印证公司方向、体现价值的 " 硬货 "。

最新发布的模型可能就是其中之一。根据阶跃星辰官方公众号介绍,Step 3.7 Flash 特别适合高频、多轮的 Agent 应用场景,并针对生产级 Agent 场景需求优化了原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排等关键能力,能显著提升任务完成效率。

Artificial Analysis 最新 Output Speed 榜单显示,该模型输出速度达到 409 tokens/s,在主流模型中居首。此外,其端到端响应时长(End-to-End Response Time)、智能效率(Intelligence vs. Output Speed)以及速度价格比(Output Speed vs. Price)等指标亦排在前列。

目前来看,Agentic AI 时代的大模型竞争,正在被重新定义。此前通过打榜、做题来比拼谁 " 更聪明 " 的做法已渐渐失去吸引力,而 Agent 真实场景中的任务完成效率,很可能会成为评价大模型的重要指标。

有业内人士表示,在新的叙事中,单点性能指标的重要性会下降,优化整个 Agent loop 变得更为关键。能平衡好速度、智能、成本、任务完成率的大模型,离应用更近,也更容易兑现经济价值。

与此同时,随着各行各业加速推进 Agent 落地,Flash 类模型的角色也正在发生转变。以往,与 Pro 版、Ultra 版模型相比,主打快速、便捷、性价比的 Flash 版更多只被视为轻量级替代品。但在 Agent 大幅推涨 Token 消耗量和价格,推进 AI 广泛落地之际,谁能以更低延迟、更低成本和更高吞吐,完成更多真实任务变得更加紧要,而这正是 Flash 的主战场。也因此,不少业内声音看好其逐步成为支撑生产级 Agent 规模化落地的基础设施。

不过,目前来看,大模型在释放 Agent 生产力、激活 Flash 价值方面还有不少路要走。阶跃方面也表示,后续将围绕 Step 3.7 Flash 推出生态共建计划和生态伙伴限时体验活动,与开发者一起探索 Agent 效率的评估方式、工程实践和生产化路径。

据了解,Step 3.7 Flash 发布后两天就冲入 OpenRouter 全球热榜前列。此外,全球权威大模型评测 Artificial Analysis Output Speed 榜单更新,Step 3.7 Flash 以 409 tokens/s 的输出速度位列主流模型第一。与此同时,Step 3.7 Flash 在端到端响应时长(End-to-End Response Time)、智能效率(Intelligence vs. Output Speed)以及速度价格比(Output Speed vs. Price)等多个关键维度均处于领先位置。

终端 Agent 能写下哪些新故事?

梳理以往资料可发现,阶跃星辰与其他大模型厂商的差异化特点更多集中于对 Agentic 模型和 AI+ 终端应用场景的大举布局。

该公司在业内曾有 " 多模态卷王 " 之称。有数据显示,在阶跃发布的 40 余款大模型中,超八成都是多模态,覆盖视觉理解、图像生成、图像编辑、语音推理、音乐生成、GUI、多模态推理等方向,是国产大模型中少有的坚持 " 原生多模 " 方向的厂商。

多模态能力也是终端 Agent 走向规模化应用落地的关键。在 AI+ 终端布局上,阶跃目前是国内和手机厂商合作最多的独立大模型厂商之一,还同时覆盖汽车、IoT 及具身智能等端侧场景。从近期动向来看,智能终端 Agent 也愈发成为该公司商业化的关键一环。

目前,随着 Agent 兴起,越来越多的 AI 硬件涌现,终端 Agent 已被不少人视为大势所趋。此前有端侧芯片从业者对作者表示,端侧市场已经进入爆发 " 元年 ",未来可能超过 80% 的大模型推理都会在终端完成。

不过,该从业者也提示,终端 AI 的上下游产业链还有待完善,端侧大模型目前的能力也亟需提升,包括在多模态、全模态等视频、语音交互方面,需要更能满足实时性等核心需求的产品。

这显然也成为了不少大模型的发力方向。

从目前能了解到的一些 Step 3.7 Flash 测试 Demo 和用户反馈来看,不少都集中在终端界面,并凸显多模态的作用。比如识别产品界面的设计特点、理解飞机驾驶舱环境并生成起飞操作说明、识别多个不同场景手机拍摄的发票照片并一键导出表格等。据介绍,相关案例中模型能理解远较以往复杂的场景和真实世界工作流,具备更强的端到端任务完成能力和跨场景泛化能力。

阶跃方面也强调,在 Agentic 时代,多模态能力更多被视为模型理解能力的扩展,在真实的物理世界工作场景中,只有具备稳定多模态理解能力的模型,才能真正进入任务环境,并参与后续的决策与执行流程。这也意味着,多模态能力将承担起模型接入真实世界任务的关键接口的重要功能,也会愈发成为大模型的标配。

从行业视角来看,如果多模态能力能够实现跃迁,不仅 Agent 落地节奏会进一步加快,端侧 AI 的爆发可能也会加速到来。

当大模型愈发聚焦如何让 Agent 走入任务和生活的现场时,相信 AI 的故事也将迎来新的篇章。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容