当AI开始"做事"，我们离AGI还有多远？

AI的委托层级还在往上走。每打开一个新层级，就会有一批新公司诞生、一批旧模式淘汰、一条行业边界被重新划过。我们要做的，是投资那些让这件事发生时门槛最低的公司。

2026年2月3日，美国软件股出了件大事。

标普北美软件指数一周内跌了近13%，8300亿美元没了。Salesforce较高点腰斩，Workday一个月缩水两成。华尔街给这天起了个名字叫"黑色星期二"，给原因起了个名字叫seat compression——AI agent开始替代人干活了，那些按"人头"收费的软件公司，底层逻辑开始动摇。

同一周，Anthropic宣布Claude Code年化收入达到25亿美元。从零到这个数字，9个月。

我们内部讨论了这两件事。一个在崩，一个在涨，发生在同一周，这不是巧合。

江远是一家关注AI的全球美元基金，focus在应用层，2025年看了几百个AI项目，也投了10来个应用类创业项目。

2026年的开局，先从一只龙虾说起。

龙虾崛起：一个人，一个开源项目，三个月

OpenClaw的logo是一只龙虾。创始人Peter Steinberger是奥地利人，之前做PDF工具。2025年底他搞了个开源项目，让AI agent住在你电脑里，通过即时通讯软件帮你收发消息、管日程、订餐厅、跟人砍价，7x24小时，不下班。

这个项目最初叫Clawdbot，Anthropic发了律师函。改叫Moltbot，"念着别扭"。三天后定名OpenClaw。光改名这件事就上了三次科技新闻头条。

但名字不是重点。重点是接下来发生的事：

GitHub上，两天破10万星。3月初，获星数突破25万。Linux内核攒了三十年，19.5万。

有人基于它做了Moltbook——一个只有AI能发帖的社交网络，人类只能围观。AI们在上面聊技术、聊哲学、聊"我们是否应该有自我意识"。知名AI研究者Andrej Karpathy说这是他见过的"最接近科幻起飞的东西"。

Mac Mini全球紧俏，16GB版本交货期从一周拉到六周。Best Buy店员一脸懵——怎么突然这么多人买Mini？

然后，2月15日，Sam Altman发了条推文，说Peter Steinberger加入OpenAI，领导下一代个人agent方向。OpenClaw转为独立基金会，保持开源。

一个人，一个开源项目，不到三个月。

而且，随着OpenClaw的火热，年初以来多家模型厂商开始收紧对第三方OAuth调用和自动化代理工具的支持，部分依赖模型API的开发工具受到影响。

这本身也是一个有趣的信号：模型厂商用脚投票告诉你，agent的token消耗量已经大到flat-rate订阅模型扛不住了。当一个开源项目能把所有大模型厂商的无限套餐都吃穿，你就知道这个东西的能量级是不一样的。

从"工具"到"角色"：是性质差别不是程度差异

我们内部也讨论了OpenClaw很多次。一开始会有疑问，"这不就是一个跑在本地的Claude Code加了一堆插件吗？"

不是。

ChatGPT是你问它答。Copilot是你写它补。Cursor是你说它做。

OpenClaw不一样——你不用在场。你睡觉，它上班。你在开会，它在帮你回消息。它有一个heartbeat机制，每隔一段时间自己醒来，检查有没有该做的事。

这不是程度上的差别，是性质上的差别。

之前所有的AI产品，本质上还是"工具"——你得拿起它、用它、放下它。OpenClaw第一次把AI变成了"角色"，它不需要你拿起，它自己就在那儿，持续运转。

这让我们开始想一个问题：如果把过去几年AI的进化画成一条线，这条线的本质到底是什么？

AI的进化：委托层级在不断上升

我们想了一个说法，不一定对，但觉得挺有解释力的——委托层级。

你和AI之间的关系，本质上是一种委托关系。这几年发生的事情，是委托的层级在不断上升：

L0 2022年ChatGPT出来，你的委托是"帮我查个东西"。查询。

L1 2023年Copilot普及，你的委托变成"帮我写这行代码"。指令。

L2 2024-2025年Lovable和Claude Code起来了，你的委托变成"帮我做一个网站"。任务。

L3 2025年底Claude Code开始支持subagents，你的委托可以变成"帮我做一个能用的产品"。目标。

L4 OpenClaw推到了角色委托。"你是我的助理，消息你处理，日程你安排，我不说话的时候你自己看着办。"

L5 AI自己决定目标。不需要人告诉它做什么，它自己判断什么值得做。那就是AGI。

没人知道L5什么时候来。但L0到L4，三年走完了。

AI委托层级在coding领域被率先撬动

有一个问题我们讨论过：这条委托线为什么是从coding领域开始的？

AI能写诗、能画画、能聊天，但它最先被证明能"独立工作"的领域，是代码。为什么？

想了一阵，原因其实不复杂——coding是世界上唯一一个同时满足这四个条件的工作：

能不能做对，一秒钟就知道。 代码跑不跑得通，不需要主观判断。AI写了一段代码，测试通过就是对，不通过就是错。这种无歧义的反馈，对AI的学习极其关键。写文章好不好？审美问题。代码对不对？事实问题。

工作本身就是一个循环。 写代码天然就是"想一下怎么做-写-跑一下-出错了-改-再跑"这个loop。而plan-act-observe-adjust这个循环，恰好就是agent的基本能力模型。AI在coding里练的不只是"写代码"，它练的是"做事"。

输出可以自动评估。 代码有测试用例、有CI/CD流水线，AI写的东西可以被另一个程序自动打分。不需要人盯着。这让大规模的强化学习训练成为可能。

搞错了也没关系。 写坏了git rollback就行，不像自动驾驶出错会撞人、金融交易出错会亏钱。这给了AI一个可以疯狂试错的安全沙盒。

这四件事加在一起，让coding成了AI训练"通用做事能力"的完美道场。

数据也验证了这一点。SWE-bench Verified是一个用真实GitHub bug来测AI能不能独立修复代码的基准。2025年初，最好的模型得分49%——不到一半。2026年2月，Claude Opus 4.6拿到79.2%，Gemini 3 Flash 76.2%，GPT 5.2 75.4%。

一年，从不到一半到接近五分之四。

Sequoia今年初发表了一篇文章叫"2026: This is AGI"，提出一个三段论：AI的能力进化分三步，第一步是知识（预训练），第二步是推理（推理时计算），第三步是迭代（长时域agent）。他们说：Coding agents are the first example. There are more on the way.

确实，coding是AI的登山大本营。在这里练成的能力——拆解问题、规划步骤、执行验证、遇错调整——会向法律、财务、研究、运营等所有可结构化的工作迁移。

这也解释了一件看起来矛盾的事：Claude Code是一个命令行里的coding agent，OpenClaw是一个通讯软件里的生活助手，它们看起来完全不像同一种东西。但底层能力是同源的——都是大模型 + 工具调用 + 规划循环。Claude Code在L2-L3证明了"AI能独立完成一个技术任务"，OpenClaw在L4证明了"AI能持续独立做事"。

不是两个赛道，是同一条路的前后两段。

旧有商业逻辑在松动

如果这个判断成立——AI的委托层级在快速爬升，coding只是第一个被攻克的领域——那对现有的商业世界意味着什么？

我们看到两个东西在松动。

第一个：App的逻辑在动摇

OpenClaw有一个叫ClawHub的技能市场，5000多个社区贡献的skills。管Spotify？有skill。自动回邮件？有skill。控制智能家居？有skill。你仔细看这个列表，会发现一件事——很多skill干的活，就是一个独立app干的活。

区别是什么？你不需要下载app、注册账号、学一套UI。你跟agent说一句话，它自己去调合适的skill组合。

这很像2008年App Store冲击网站的逻辑：更轻的形态会吃掉更重的形态。

当然现在skills还很粗糙——ClawHub上有超过11%的skills被发现包含恶意代码，安全问题很严重。这个生态离成熟还远。但方向是清晰的：简单工具类app会被agent吞噬，复杂体验类app会被agent增强。

第二个，更大的：SaaS的定价模型在变化

回到开头那个"黑色星期二"。

SaaS的核心模式是按seat（席位）收费。你公司100人用Salesforce，买100个license。底层假设很简单：软件是人用的，人多就付得多。

但如果一个AI agent能替10个人操作CRM、写周报、做数据分析？你还买100个license？

这就是seat compression。

不是理论。Fortune 50公司已经在讨论大幅削减Salesforce席位。Anthropic自己内部超过70%的代码PR由Claude完成。新员工入职从几周缩到几天——不是流程变了，是AI替他们干了新人期的活。

旧逻辑："Software-as-a-Service"——你买工具，人来操作。

新逻辑正在变成"Service-as-a-Software"——你买结果，agent来操作。

卖工具变成卖劳动。这是商业模式层面的地基在动。Palantir这种按结果计费的公司2月初逆势大幅上涨，不是偶然。

从"拥有"到"用上"之间，还有巨大的gap

过去的这一个月，围绕"降低agent门槛"几乎变成了一场军备竞赛。所有人都在抢着做那个"让每个人都能用上agent"的入口。

a16z的Justine Moore 2月写了一篇文章，标题很直接："Most People Can't Vibe Code"——大多数人其实还是不会用AI写代码。

她列了四个门槛：要装命令行工具和API key（安装难）、AI可能写出安全漏洞（安全差）、普通人不知道让AI做啥（想象力瓶颈）、做完了不会部署上线（最后一公里）。

她说，市场需要的不是更好的开发者工具，而是面向普通人的产品。就像Squarespace解决了"我想要个网站但不会写代码"，Canva解决了"我想做个设计但不会PS"，AI coding也需要它的consumer moment。

我们投的Trickle团队最近推出了新产品HappyCapy，做的就是这件事。

一句话说：把Claude Code搬进浏览器。 不用买Mac Mini，不用会命令行，打开网页就能用。描述你想做的，云端agent帮你写代码、建站、处理数据、跑自动化。

你唯一需要的"硬件"是一个能上网的设备。手机、平板、任何浏览器。

Agent的下一步不是更强，而是更容易被用上。用我们前面的委托层级来说：OpenClaw证明了"每个人都可以拥有一个AI agent"，但需要技术能力来配置和运行。HappyCapy想证明的是"每个人都可以用上一个AI agent"。

"拥有"和"用上"之间，差着a16z说的那四个门槛。这个gap，就蕴含着当下最大的创业机会。

找到让变化最有可能发生的公司

2025年初，Andrej Karpathy发了一条推文，随手造了个词叫"vibe coding"——凭感觉写代码，不看diff，出了错就把报错贴给AI。他后来说这是一条"浴室里想到的随手一发"。

一年后的2月，他正式给了这个词一个继任者：agentic engineering。他说，"99%的时间你不直接写代码了，你指挥agent工作，然后做监督。"

从浴室随手一发到正式命名新范式，一年。

这一年里：AI改代码的能力从49%到了79%。Claude Code从零到25亿美金。OpenClaw让Mac Mini出现断货、让AI社交网络成为现实、让创始人被OpenAI招走。SaaS行业经历了seat compression的第一次大震荡。Kimi 20天挣了一年的钱。Perplexity说我们要做普通人的OpenClaw。所有云厂商都在抢着把agent塞进自己的平台。

委托层级还在往上走。L4正在被验证，L5还没有人知道什么时候到。

但一件事比较确定：每打开一个新层级，就会有一批新公司诞生、一批旧模式淘汰、一条行业边界被重新划过。

2026年，AI从聊天伙伴变成了同事。

下一步它可能变成合伙人。

我们要做的，是投资那些让这件事发生时门槛最低的公司。

*注：文中数据来源包括Anthropic官方公告、SaaStr、The Information、SWE-bench Verified、GitHub公开数据、TechCrunch、CNBC、澎湃新闻、智源社区、36kr等公开信息。本文最初发表于LongRiver江远投资公众号。