让智能体“看见”世界,不是给它装上摄像头那么简单。当CV遇上AI Agent,乘数效应正在发生。AI Agent不等于Chatbot,真正的价值在于静默看护与自主决策。
AI进入产业腹地仍面临两大鸿沟:视觉认知与行业的理解。为此,大华股份构建了星汉大模型系列——V系列视觉大模型让系统“看得懂”物理世界,L系列行业模型打通业务逻辑。未来“基模+行业Know-how”将成为新范式,而AI的终局不是刷榜,是让每个行业、每个个体都不掉队。
以下为大华股份研发中心副总裁 周文凯 演讲内容,经36氪整理编辑:

周文凯丨大华股份研发中心副总裁
非常感谢北京亦庄和36氪给我们这个机会来给大家做一个分享。
我今天分享的主题是让智能体看见世界。为什么让智能体看见世界?看见世界并不是让数字世界的智能体装上摄像头,或者输入视频数据让它看得到物理世界这么简单,CV × AI Agent,为什么是乘,CV是视觉计算,AI Agent是智能体,让数字世界的AI智能体可以认知物理世界非常重要,这两个事情并不是特性和功能的孤立,而是相互乘数效应的加强。
简单来说,AI智能体对物理世界的认知,可以为我们对于数字世界的决策带来更大的帮助。
2022年ChatGPT面世,自发布至今已三年多,AI产业发生了非常大的变化。我们看到AI更多的发展是在2C消费者领域,在政企、行业落地过程中依然遇到非常多的问题。
从硬件角度上看,过去三年非常强调GPU的计算,不管对于视觉上的GPU运算还是看到一系列的推理、训练过程中对GPU的使用,到现在我们回头来重新审视在AI Agent任务编排中CPU的使用。硬件角度,不管是资源调度、系统连接、任务流程等,我们越来越关注在硬件载体上,CPU和GPU的平衡。技术突破,2023年我们看提示词工程,大家关注怎么让智能体了解我们的业务,了解我们的意图,到2024年我们希望通过面向各种行业的知识库来让智能体可以离我们的产业更近,2025年我们讲长上下文,MoE专家模型来节省推理资源,以及到今年我们看到以Open Claw为代表的自主AI Agent变得非常普遍。模型和产业之间的连接越来越紧密,模型也变得越来越聪明。
产业角度,把Agent变成大模型作为搜索引擎和工具,Agent融入到业务流程,不管是从技术、硬件角度,可以看到产业对AI的场景适配提出比算法本身更强烈的诉求。这里面依然有两个GAP很难跨过去,我刚才讲的一个是CV,一个是Agent对行业数据以及行业业务流程的理解。

大华是从安防起家逐步进入到现在面向于智慧物联的产业赛道,在CV和AI Agent两个领域,这几年有非常多的实践跟大家分享。
首先在视觉AI上,大华2016年基于人像、车辆视图数据的结构化,希望让我们的系统、摄像头可以“看得清”这个世界;到2023年我们发布了星汉大模型,围绕物理世界全局和局部的解析,让我们的数智化系统可以“看得懂”这个世界;今年我们进一步推动AI具备“自主认知”物理世界的能力,并在此基础上升级构建了星汉大模型系列,包括 V 系列(视觉大模型)、L 系列(语言大模型)和 M 系列(多模态大模型)模型集。
有这样一个模型框架,可以让面向用户的应用范式发生巨大的改变,我们为用户构建了全域泛在的感知系统:既可以全局看一个城市、一个园区、一个企业的运行态势,同时还可以聚焦到任何局部物体的信息,来实现智能识别。我们打造了自主效率引擎,为智能体构建更强、更方便的视觉插件,同时升级了智能体系,通过视觉的小模型、大模型之间的协作,从而提升对物理世界认知的效率。
另一部分是智能体,在2023年我们发布了从L1到L4行业智能体的构建逻辑:L1围绕着基础大模型实现知识库和智能问答;L2是在整个业务流程里,以AI强化包括视觉、认知、决策、执行等各个环节;L3则是AI参与部分决策,在子业务链路中实现闭环;L4希望能够产生对业务环境的深刻理解,能自主行动规划并持续进化。
从L1到L4,本质上是在讲人和智能体之间的关系,在与AI Agent协作过程中,人参与的环节越来越少。Human in the Loop,但人参与的是更高级别的决策。在L4自主AI Agent的构建中,我简单画了一个框架图,基于已经积累的视图中台以及数据中台,我们构建了AI Agent Loop智能体框架,包含视觉识别、业务编排、行业Skills、自主能力引擎等模块,人和Agent之间形成面向行业业务有效的协作。
现在我们讲到大模型,行业里许多人认为是通过对话框和智能体之间实现交互和连接。但事实上我们要面对物理世界的时候,需要的是能够辅助人的外脑,而这个外脑在很多时候是在为用户做着静默看护和决策。智能体会让我们的用户与他的数据以及业务系统之间的关系产生更深刻的变化。在过往这些年里大华积累了面向前端感知和后端存储、集成系统等一系列全栈智能硬件的载体,我们也有面向各类场景的视觉大小模型,构建了不断沉淀行业Know-How业务组件的“萤火虫”平台。大模型深入行业最大的鸿沟在于如何连接AI和行业中广泛存在的数据和系统孤岛,而这些行业的Know-How积累在过往所有信息化系统,我们需要组件化脚手架,形成知识资产,而这些知识和工具就是大模型外脑得以连接我们用户的系统,产生新的乘数效应的地方。
这里有三个Demo给大家呈现。
公共安全领域,在景区接到小孩丢失报警,智能体自主目标设定、任务编排,需要找寻的小孩什么时间、什么地点走失,身体特征是什么样,跟线索追踪、轨迹预测;一旦锁定人体特征后,根据小孩的行速特征,在整个监控地图轨迹上尝试预测有可能往哪些方向,他的行踪有哪些方向走动,同时在他能涉及的地点范围内,去找寻现场巡逻的比如保安、摄像头;快速定位到这些人员,同时下发整个广播、保安等一系列可供执行的单元。在这个场景中智能体深度整合了目标设定、视觉识别、任务规划、轨迹追踪预测到最后的action调度执行落地等能力。
工业巡检Agent,在巡检过程中我们会关心设备的质量运行情况、工人操作的规范性,以及工人背后的服务资质等要素,我们有智能体对安全场景的判断非常专业,同时有智能体对资质审核非常专业,这些智能体可以在AI Agent领域里编排,自主实现对场景的把控以及危险情况的预警。这段Demo体现的是输电电站场地机器人的巡检。

最后这个例子是面向于森林防火。传统的做法是需要人守着巨大的林场,当发生火情报警,人要到现场做确认。当有了CV和AI Agent有效协作后,可以调度摄像头、无人机实现二次确认。Agent不再只是根据我们的指令去做程式化的事情,它有自主决策的能力可以调度它所需要的感知单元,去灵活处理应急事件,同时让人非常有效地在关键时参与到流程里,发挥决定性的作用。
业界已经有比较大的共识,整个AI产业我们做了分层,从能源、基础设施到大模型计算范式、工具集成、智能体以及整个产业生态,能源和基础设施——如果我们按中西方比较,中国有非常强的效率和成本优势,而在大模型和计算范式,我们处于追赶者角色。在这里可以看到大模型的能力不断往行业倾斜,从OpenClaw刚发布到后面不少大模型默认集成基础Skills以及脚手架,逐步尝试让大模型变得更业务、更灵活。但行业的实际情况是一系列的数据和系统依然处于孤岛。举个例子,我们做Vibe Coding,通用业务效率提升非常明显,这时候你会觉得大模型非常聪明,但在极高效率要求的底层或者专业业务中又会觉得非常蠢。能力边界如此明显的原因在于,面向行业业务的数据根本不在大模型的训练集里,我们依然在行业里有非常多的系统孤岛以及用户不愿意分享的数据以及Know-How。这对我们反而是一个机会,我们在本地化算力、视图解析、行业化智能体、工具集成的长期积累,让我们可以在兼顾客户数据安全的要求下实现其行业外脑的构建,助力客户商业成功。
上面三层也是大华努力为我们的行业客户解决的问题。
我们面向未来,一定是基模+FDE,可以变成智能体即软件,模型即软件的范式,硬件从纯粹聚焦GPU到CPU并举,我们判断这两条技术演进路径会大大加速AI产业在中国的成熟。
凯文·凯利曾问“科技想要什么”,而我想说“AI想要什么”。AI的终局肯定不是技术的刷榜和概念热度,而是让每个行业、每个个体都能享受到智能化带来的真正改变,而我们正在这条路上。
谢谢大家!
