关于ZAKER Skills 合作
36氪 1小时前

让智能体看见世界:CV × AI Agent 的行业场景新实践

让智能体 " 看见 " 世界,不是给它装上摄像头那么简单。当 CV 遇上 AI Agent,乘数效应正在发生。AI Agent 不等于 Chatbot,真正的价值在于静默看护与自主决策。

AI 进入产业腹地仍面临两大鸿沟:视觉认知与行业的理解。为此,大华股份构建了星汉大模型系列—— V 系列视觉大模型让系统 " 看得懂 " 物理世界,L 系列行业模型打通业务逻辑。未来 " 基模 + 行业 Know-how" 将成为新范式,而 AI 的终局不是刷榜,是让每个行业、每个个体都不掉队。

以下为大华股份研发中心副总裁 周文凯 演讲内容,经 36 氪整理编辑:

周文凯丨大华股份研发中心副总裁

非常感谢北京亦庄和 36 氪给我们这个机会来给大家做一个分享。

我今天分享的主题是让智能体看见世界。为什么让智能体看见世界?看见世界并不是让数字世界的智能体装上摄像头,或者输入视频数据让它看得到物理世界这么简单,CV × AI Agent,为什么是乘,CV 是视觉计算,AI Agent 是智能体,让数字世界的 AI 智能体可以认知物理世界非常重要,这两个事情并不是特性和功能的孤立,而是相互乘数效应的加强。

我们对于数字世界的决策可以利用对物理世界的认知正在发生什么事情的认知,给带来更大的帮助。我们开始今天的分享。

2022 年 ChatGPT 面世,自发布至今已三年多,AI 产业发生了非常大的变化。我们看到 AI 更多的发展是在 2C 消费者领域,在政企、行业落地过程中依然遇到非常多的问题。

从硬件角度上看,过去三年非常强调 GPU 的计算,不管对于视觉上的 GPU 运算还是看到一系列的推理、训练过程中对 GPU 的使用,到现在我们回头来重新审视在 AI Agent 任务编排中 CPU 的使用。硬件角度,不管是资源调度、系统连接、任务流程等,我们越来越关注在硬件载体上,CPU 和 GPU 的平衡。技术突破,2023 年我们看提示词工程,大家关注怎么让智能体了解我们的业务,了解我们的意图,到 2024 年我们希望通过面向各种行业的知识库来让智能体可以离我们的产业更近,2025 年我们讲长上下文,MoE 专家模型来节省推理资源,以及到今年我们看到以 Open Claw 为代表的自主 AI Agent 变得非常普遍。模型和产业之间的连接越来越紧密,模型也变得越来越聪明。

产业角度,把 Agent 变成大模型作为搜索引擎和工具,Agent 融入到业务流程,不管是从技术、硬件角度,可以看到产业对 AI 的场景适配提出比算法本身更强烈的诉求。这里面依然有两个 GAP 很难跨过去,我刚才讲的一个是 CV,一个是 Agent 对行业数据以及行业业务流程的理解。

大华是从安防起家逐步进入到现在面向于智慧物联的产业赛道,在 CV 和 AI Agent 两个领域,这几年有非常多的实践跟大家分享。

首先在视觉 AI 上,大华 2016 年基于人像、车辆视图数据的结构化,希望让我们的系统、摄像头可以 " 看得清 " 这个世界;到 2023 年我们发布了星汉大模型,围绕物理世界全局和局部的解析,让我们的数智化系统可以 " 看得懂 " 这个世界;今年我们进一步推动 AI 具备 " 自主认知 " 物理世界的能力,并在此基础上升级构建了星汉大模型系列,包括 V 系列(视觉大模型)、L 系列(语言大模型)和 M 系列(多模态大模型)模型集。

有这样一个模型框架,可以让面向用户的应用范式发生巨大的改变,我们为用户构建了全域泛在的感知系统:既可以全局看一个城市、一个园区、一个企业的运行态势,同时还可以聚焦到任何局部物体的信息,来实现智能识别。我们打造了自主效率引擎,为智能体构建更强、更方便的视觉插件,同时升级了智能体系,通过视觉的小模型、大模型之间的协作,从而提升对物理世界认知的效率。

另一部分是智能体,在 2023 年我们发布了从 L1 到 L4 行业智能体的构建逻辑:L1 围绕着基础大模型实现知识库和智能问答;L2 是在整个业务流程里,以 AI 强化包括视觉、认知、决策、执行等各个环节;L3 则是 AI 参与部分决策,在子业务链路中实现闭环;L4 希望能够产生对业务环境的深刻理解,能自主行动规划并持续进化。

从 L1 到 L4,本质上是在讲人和智能体之间的关系,在与 AI Agent 协作过程中,人参与的环节越来越少。Human in the Loop,但人参与的是更高级别的决策。在 L4 自主 AI Agent 的构建中,我简单画了一个框架图,基于已经积累的视图中台以及数据中台,我们构建了 AI Agent Loop 智能体框架,包含视觉识别、业务编排、行业 Skills、自主能力引擎等模块,人和 Agent 之间形成面向行业业务有效的协作。

现在我们讲到大模型,行业里许多人认为是通过对话框和智能体之间实现交互和连接。但事实上我们要面对物理世界的时候,需要的是能够辅助人的外脑,而这个外脑在很多时候是在为用户做着静默看护和决策。智能体会让我们的用户与他的数据以及业务系统之间的关系产生更深刻的变化。在过往这些年里大华积累了面向前端感知和后端存储、集成系统等一系列全栈智能硬件的载体,我们也有面向各类场景的视觉大小模型,构建了不断沉淀行业 Know-How 业务组件的 " 萤火虫 " 平台。大模型深入行业最大的鸿沟在于如何连接 AI 和行业中广泛存在的数据和系统孤岛,而这些行业的 Know-How 积累在过往所有信息化系统,我们需要组件化脚手架,形成知识资产,而这些知识和工具就是大模型外脑得以连接我们用户的系统,产生新的乘数效应的地方。

这里有三个 Demo 给大家呈现。

公共安全领域,在景区接到小孩丢失报警,智能体自主目标设定、任务编排,需要找寻的小孩什么时间、什么地点走失,身体特征是什么样,跟线索追踪、轨迹预测;一旦锁定人体特征后,根据小孩的行速特征,在整个监控地图轨迹上尝试预测有可能往哪些方向,他的行踪有哪些方向走动,同时在他能涉及的地点范围内,去找寻现场巡逻的比如保安、摄像头;快速定位到这些人员,同时下发整个广播、保安等一系列可供执行的单元。在这个场景中智能体深度整合了目标设定、视觉识别、任务规划、轨迹追踪预测到最后的 action 调度执行落地等能力。

工业巡检 Agent,在巡检过程中我们会关心设备的质量运行情况、工人操作的规范性,以及工人背后的服务资质等要素,我们有智能体对安全场景的判断非常专业,同时有智能体对资质审核非常专业,这些智能体可以在 AI Agent 领域里编排,自主实现对场景的把控以及危险情况的预警。这段 Demo 体现的是输电电站场地机器人的巡检。

最后这个例子是面向于森林防火。传统的做法是需要人守着巨大的林场,当发生火情报警,人要到现场做确认。当有了 CV 和 AI Agent 有效协作后,可以调度摄像头、无人机实现二次确认。Agent 不再只是根据我们的指令去做程式化的事情,它有自主决策的能力可以调度它所需要的感知单元,去灵活处理应急事件,同时让人非常有效地在关键时参与到流程里,发挥决定性的作用。

业界已经有比较大的共识,整个 AI 产业我们做了分层,从能源、基础设施到大模型计算范式、工具集成、智能体以及整个产业生态,能源和基础设施——如果我们按中西方比较,中国有非常强的效率和成本优势,而在大模型和计算范式,我们处于追赶者角色。在这里可以看到大模型的能力不断往行业倾斜,从 OpenClaw 刚发布到后面不少大模型默认集成基础 Skills 以及脚手架,逐步尝试让大模型变得更业务、更灵活。但行业的实际情况是一系列的数据和系统依然处于孤岛。举个例子,我们做 Vibe Coding,通用业务效率提升非常明显,这时候你会觉得大模型非常聪明,但在极高效率要求的底层或者专业业务中又会觉得非常蠢。能力边界如此明显的原因在于,面向行业业务的数据根本不在大模型的训练集里,我们依然在行业里有非常多的系统孤岛以及用户不愿意分享的数据以及 Know-How。这对我们反而是一个机会,我们在本地化算力、视图解析、行业化智能体、工具集成的长期积累,让我们可以在兼顾客户数据安全的要求下实现其行业外脑的构建,助力客户商业成功。

上面三层也是大华努力为我们的行业客户解决的问题。

我们面向未来,一定是基模 +FDE,可以变成智能体即软件,模型即软件的范式,硬件从纯粹聚焦 GPU 到 CPU 并举,我们判断这两条技术演进路径会大大加速 AI 产业在中国的成熟。

凯文 · 凯利曾问 " 科技想要什么 ",而我想说 "AI 想要什么 "。AI 的终局肯定不是技术的刷榜和概念热度,而是让每个行业、每个个体都能享受到智能化带来的真正改变,而我们正在这条路上。

谢谢大家!

相关标签
36氪

36氪

让创业更简单

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容