最近ClawdBot在硅谷和全球开发者社区的爆火,不仅仅是一个AI项目的成功,它更像是一个信号,标志着AI正在从对话式向执行式转型。
ClawdBot这个本地智能工具,能够接入多种服务、执行定时任务、长期记忆上下文,让很多开发者第一次体验到了什么叫做真正能干活的AI。GitHub上数万星标的增长速度,以及因为它而脱销的Mac mini,都在说明一个问题:市场对能够实际执行任务的AI存在巨大的需求缺口。

技能(Skills)比智能体更实用,是ClawdBot传递给我们的信息。在2026年,我们回看过去两年的百模大战,会发现一个集体性的误区:整个行业试图制造一个全知全能的大脑,却忽略了让这个大脑与物理世界交互的手脚。
我在2026中国AIoT产业年会上提出的判断是,万物智行意味着智能体作为一个独立的物种,开始在物理世界和数字世界中自主地感知、决策、行动乃至交易。但过去智能体落地的最大瓶颈在于,AI大模型会思考但不接地气。从智能体到技能的发展,正在填补这个鸿沟。
因此,本文将从ClawdBot现象出发,预判未来AIoT可能爆发的产品形态。
在深入分析之前,我们必须首先厘清智能体与技能,这两个核心概念的区别与联系。
智能体是具有自主决策能力的AI系统,它的核心能力在于感知环境、理解意图、规划任务和协调资源。如果用一个职场角色来类比,智能体更像是一个项目经理,它的价值在于决定做什么以及谁来做。智能体的能力边界取决于它的理解力、判断力和协调力。
技能则完全不同,技能是标准化、可复用的能力单元,它的核心价值在于完成某一项具体的、明确的任务。继续用职场角色类比,技能更像是一个专业的工程师,它知道怎么做并且能够稳定交付。技能的价值来源于可靠性、可复用性和可组合性。
一个优秀的智能体,价值不在于它本身有多聪明,而在于它能调用多少高质量的技能。
这就解释了为什么说技能比智能体更实用。ClawdBot的爆火揭示了一个反直觉的真相:用户可能并不需要一个无所不能但什么都做不好的超级智能体,而是需要一个能精准调用各种技能、稳定完成具体任务的执行系统。
这就像企业招聘时面临的选择。与其招一个什么都懂一点的通才,不如招一个能高效协调专业团队的项目经理,再配上一群各有专长的专业人士。智能体和技能的分工,本质上就是这个道理。
接下来我们将讨论,伴随着ClawdBot的浪潮,为什么AIoT的竞争焦点可能将从智能体本身转向技能生态。
ClawdBot之所以能在短时间内获得如此大的关注,不是因为它比ChatGPT更会聊天,而是因为它更会干活。这揭示了AIoT的未来形态:我们不需要一个会写诗的电饭煲,我们需要一个拥有标准化煮饭技能并能被任何智能体调用的物理节点。
从智能体到技能,预示着一种更具有性价比的通往AIoT万物智行的迭代路径。在新一代智能终端中,我们可能不再追求给每个设备都配备一个AI模型,这种做法让我们避免了算力浪费,毕竟让每个灯泡都具备理解复杂语义的能力并不现实,端侧AI模型的成本也无法被消费级硬件的利润覆盖。
未来的正确路径可能是技能网络。设备不再追求更高的冗余智能,而是专注于如何更好的“暴露”自己的技能。
我们可以对比一下新旧两种模式的差异。在旧模式下,当用户对智能音箱说我冷了,音箱内置的模型需要分析语义,然后去调用空调的API,空调再执行制冷操作。整个过程中,音箱承担了理解和调度的双重职责,而空调只是一个被动的执行终端。
在新模式下,空调在网络中“暴露”的是一个制冷技能,这个技能有标准化的描述、输入参数和输出结果。用户的个人智能体接收到我冷了这个意图后,不需要理解空调的具体API,只需要像搭积木一样,瞬间编排温度传感器技能、空调制冷技能和窗帘闭合技能。多个设备协同执行,但调度逻辑集中在一个智能体中。
这个转变的关键在于,设备从被动响应指令的终端变成了主动暴露能力的技能节点,智能体从设备的附属品变成了技能的调度中枢。
这里需要提到Anthropic推出的MCP协议,它就像AI时代的USB接口,让技能有了标准化的接入方式。任何设备只要符合MCP标准,就能被任何智能体识别和调用。
这意味着未来AIoT的竞争,不再是谁的设备更智能,而是谁的技能生态更丰富。
如果用一个类比来理解技能的价值,技能就像是给AI用的APP。APP是给人用的,人通过APP完成任务。技能是给智能体用的,智能体通过技能完成任务。用户不需要自己写提示词、调试工具链,直接导入一个技能就能即插即用。
按照这个逻辑,我们可以把AIoT的技术栈重新划分为三层。
最底层是协议层,MCP扮演这个角色,它是AI与物理世界交互的通用语法,解决的是能不能连接的问题。
中间是能力层,也就是技能所在的位置,它是标准化的语义单元,描述能做什么和怎么做,解决的是会不会用的问题。
最上层是调度层,智能体在这里发挥作用,它负责理解意图、编排技能、执行任务,解决的是怎么组合的问题。
未来可能会出现一类全新的智能硬件形态,这类轻量级硬件没有APP,用户不需要下载任何应用。没有屏幕,不需要人机交互界面。甚至没有语音助手,不内置任何AI模型。它们出厂时只内置符合MCP标准的技能包。用户买回家后,用自己的个人智能体扫描激活,这些技能就自动挂载到用户的数字技能库中。

在这种模式下,硬件将成为技能的物理容器,就像U盘是数据的物理容器一样。硬件厂商的竞争力不再来自于设备本身的智能程度,而在于它能提供多少高质量、高可靠性的技能。
这意味着未来最有价值的,不是拥有最多IoT设备连接的平台,而是沉淀最多可复用技能的生态。
ClawdBot爆火的本质是什么?仔细分析它的功能特点,它能接入各种工具,能长期记忆上下文,能主动定时执行任务。这三点组合起来,就是数字员工的雏形。有了定时任务和各种技能的加持,用户可以让它每天定时检查邮箱、整理数据、生成报告、发送邮件,自动完成大量重复性工作。
但这仅仅是数字世界的技能爆发。真正的想象空间,在于技能与物理AI的结合。因此很有可能在短期内爆发的,是端侧技能加边缘AI赋能的智能单品。
以零售场景为例,传统的智能货架需要店员手动盘点和补货。而在技能驱动的模式下,零售终端可以自主完成库存预测、补货建议、促销定价和顾客互动的完整闭环,每一个环节都是一个独立的技能,组合起来就是一个完整的零售智能体。
工业传感器的变化可能更加明显。过去的传感器只是上报原始数据,数据分析和决策都在云端或者人工完成。而在技能驱动的模式下,传感器本身就能输出本周异常摘要、预测性维护建议和投资回报分析报告,从数据采集点直接变成决策支持点。
麦肯锡预测AI智能体到2030年将贡献全球GDP的10%,价值数万亿美元。而这其中做出最大贡献的很有可能是端侧AI技能赋能的万物智行生态。让每一个物理设备都成为一个会干活的节点,这是AIoT下一阶段的核心叙事。
ClawdBot只是冰山一角,海面下是物理世界的技能变革。它告诉我们一个朴素的道理:用户更愿意为能干活的AI买单。
技能的价值不止于单个技能本身,而在于组合、编排与交易。智次方研究院提出的“通感智值一体化”四维战略飞轮,从通信、感知、智能、价值四个维度系统梳理了AIoT 2.0的协同场景。技能的引入,将使这一模型从基础设施协同跃升到价值交换协同。万物智行意味着智能体开始具备自主感知、决策、行动乃至交易的能力。
《国务院关于深入实施“人工智能+”行动的意见》明确提出推动智能终端“万物智联”,打造一体化全场景覆盖的智能交互环境。政策指向与技术演进形成共振:跨领域、跨场景的技能编排能力,将成为这一愿景落地的关键指引。
