Claude Code 桌面版烂爆了,Anthropic 终于把 “100% AI 编码”演砸了
3 小时前 / 阅读约11分钟
来源:36kr
Anthropic发布Claude Code桌面版,但用户反馈问题严重,包括界面卡顿、崩溃、功能不稳定等。上线两天便积累大量吐槽,甚至有人列出40多个bug。尽管Anthropic宣称代码100%由AI编写,但产品质量堪忧。

Anthropic 终于还是把 Claude Code 做成了桌面应用。

这本来应该是一件很顺理成章的事。CLI 当然有它的价值,但如果真要把 agentic coding 推向更大规模、更高频、更接近日常开发的使用场景,图形界面几乎是绕不过去的。尤其是在你同时处理多个任务、多个线程、多个上下文的时候,一个慢、卡、状态又不透明的命令行界面,确实很难说是“最终形态”。从这个意义上说,Claude Code 桌面版的发布,本来是一个值得期待的节点。

Anthropic 显然也对它寄予厚望,官方账号亲自下场发推,外界预热已经持续了几个月,整个发布姿态都在传递一个信号:他们终于要把 Claude Code 从一个“能用的 CLI 工具”,推进成一个更完整的正式产品了。

但真正的问题在于,这个桌面版一旦开始上手,给人的感受并不是“终于成熟了”,而是“怎么会烂成这样”。

新桌面版烂到根本没法用 

这个版本上线才两天,就在社区里迅速积累起一波密集吐槽。

用户提到,iOS 下,键盘会突然卡住。有时连最核心的输入框都会频繁消失,而且几乎每次会话都会遇到,必须退出再重新进入聊天才能恢复。

Windows 版本也一样会经常卡顿和崩溃。

界面层面的问题也很明显:按钮位置不符合预期,聊天框还频繁闪烁,整体交互体验不稳定。

另一个明显问题是,一些原本最该体现效率价值的自动化功能,本身就不太稳定。比如用户想用 Routines 跑一个简单的数据库内容处理流程,结果不管怎么折腾,始终连不上数据库。

不少人吐槽 bug 多到实际上没法用。

上手一小时,直接撞出 40 多个 bug 

网上很快就有人晒出了一份 bug 清单,里面列了 40 多个问题。更夸张的是,这 40 多个问题,都是 Theo 在一个小时的试用过程中集中撞出来的。

这 40 多个 bug,大致可以分为三类。一类是快捷键和标签页逻辑混乱,很多快捷键只在主标签页生效,切换标签时操作对象还会乱跳;一类是侧边栏和项目管理彼此割裂,项目列表、recent projects、线程拖拽、菜单展开方式彼此对不上,用户很难搞清楚当前到底在操作什么;还有一类更直接,属于一些基础功能本身就不成立,比如“打开文件”并不会真正打开文件,创建 fork 会连带生成 worktree 却没有任何提示...

这些问题写在列表里还只是观感不佳,放进真实任务里,很快就会变成一连串的实打实的使用障碍。

比如在一个再普通不过的场景里,让它去分析一个应用可能存在的性能问题,本来只是一个起手测试,还没涉及真正改代码,系统就已经开始不稳定。任务一启动,就先卡住了将近一分钟,随后 agent run 随机停住,线程直接冻结,界面上的图标却还挂在那里,像是在告诉你它仍然在运行。

但实际上,它已经不动了。UI 没有任何提示,也没有报错,没有结束,也没有失败。你眼前看到的是一个仿佛还活着的线程,实际面对的却是一个已经死掉的流程。

这个问题,本质上可以说是它出错的门槛太低了。不是在长链路任务里失手,也不是在高复杂度项目里崩掉,而是在一个本该最容易跑通的基础场景里,把任务执行、线程状态和界面反馈三件事一起做乱了。这种状态错乱,放在聊天产品里都不算小问题,放在开发工具里就更致命,因为开发者最依赖的,恰恰是系统状态的清晰、反馈的准确,以及操作结果的可预期。

接着往下操作,在界面这一层,又会遇到更多问题。比如分屏时,你明明在右侧窗口里操作,打开 terminal 后,它却出现在左侧分屏上;而且 terminal 一旦开出来,Tab 键会被当作输入键使用,也就没法再顺手切回其他窗口。

与此同时,terminal 右上角的关闭按钮旁边又贴着 拖拽区域,结果那个 X 很难点中。也就是说,terminal 一旦开出来,输入会受影响,想关又不那么容易关掉。

还有些极其荒谬、莫名其妙的 bug:

  • 比如语音模式下,所有输入框都会自动输入文字,而不是只输入你当前选中的那个。
  • “v more”下拉菜单根本不是下拉,而是往侧边展开的(但箭头是向下的)。
  • “打开文件”会执行大约 15 种不同的操作,但没有一种操作是真正打开文件。
  • 可以拖拽线程,但实际上永远不能改变它们的顺序,任何情况下都不行。
  • 可以在 diff 视图里套娃式地嵌套可折叠侧边栏。
  • diff 视图里的“x”按钮会关闭整个标签页,而不是只关闭 diff 视图。

......

他吐槽说,“我不太相信那些说自己已经用这个应用用了好几周的人,真的认真用过它。我甚至还没开始用它干活、改代码,就已经连续撞上了五六个这样的 bug,感觉自己都快疯了。”

“现在的问题是,很多人只是接受了这种质量。”即便存在大量更稳定、功能更完整、甚至开源的替代方案,用户仍然在使用 Claude Code,仅仅因为它绑定了模型入口。“他们不是在为这个界面付费,他们是为模型付费,但结果却要忍受这个界面。”

100%AI 编写,落地质量堪忧 

对此,还有其他网友吐槽:“一个整天说‘软件开发已经被解决了’的公司,现在做成这样,确实挺好笑的。”不过,也因此至少说明开发者的饭碗还没丢。

毕竟 Anthropic 过去这一年的对外叙事一直很激进,核心就一句话:代码越来越多是 AI 写的,而且比例还在一路往上抬。从“80% 到 90%”,到“90%”,再到“100%”,数字一次比一次高。到了 2026 年初,“内部大多数产品基本已经是 100% AI 编码”的说法,也已经被他们反复讲了很多次。

  • 2025 年 3 月,CEO Dario Amodei 在美国外交关系委员会上说:“再过 3 到 6 个月,AI 就会写出 90% 的代码。”
  • 2025 年 5 月,Boris Cherny 在播客《Latent Space》中表示:“整体来看,大概 80% 到 90% 的代码是 Claude 写的。”
  • 2025 年 9 月,Amodei 再次发声,但开始收口:“在 Anthropic,70%、80%、90% 的代码是 Claude 写的。”注意这个区间——70% 和 90% 是两回事,但媒体只抓了 90%。
  • 2025 年 10 月,Amodei 在 Dreamforce 与 Marc Benioff 同台时说:“我之前预测过,六个月内 90% 的代码会由 AI 完成,现在已经实现了。”但被追问后,他又补了一句:“也不是所有情况都这样。”
  • 2025 年 12 月,Boris Cherny 发推:100%。
  • 2026 年 2 月,CPO Mike Krieger 在 Cisco AI Summit 上表示:“目前在 Anthropic,大多数产品基本可以说是 100%。”
  • 2026 年 3 月 7 日,Boris Cherny 再次确认:“Claude Code 是 100% 由 Claude Code 写的。”

问题在于,这个“100%”一旦真正落到产品上,情况就开始变得不太对劲。Claude Code 桌面版给人的感觉,不像一个打磨完成的正式产品,更像一个边写边补、一路 vibe 出来的半成品。问题不在于它偶尔出错,而在于它在最基础的使用路径上就已经不稳,这才是最让人担心的地方。

有人算了笔账:这些工程师一天能拿到一千万到一千五百万 token,最后做出来的就是这个效果。更让人困惑的是,从什么时候开始,行业默认“能大规模生成高质量 token”就等于可以为了速度把编程质量一起扔掉?

这种不满,其实不只是针对桌面版这一次翻车。回头看,之前的代码泄露,已经提前把问题暴露得很彻底了。

其中一个反复被提到的文件:print.ts。里面只有一个函数,但这个函数足足写了 3167 行代码,包含 486 个分支判断,嵌套深度达到 12 层。有人专门把这个函数里塞的东西列了一遍:agent 的运行循环、SIGINT 中断处理、限流逻辑、AWS 认证、MCP 生命周期管理、插件加载、通过 while(true) 轮询“team lead”、模型切换、以及对中断的恢复机制……几乎所有核心逻辑,都被硬塞进了这一个函数里。而实际上,这至少应该拆成 8 到 10 个独立模块。

类似的情况,不止这一处。QueryEngine.ts 写到了 4.6 万行,Tool.ts 接近 3 万行,commands.ts 也有 2.5 万行,入口文件 main.tsx 单文件体积达到 785KB。不是某一段代码出了问题,而是整个结构本身,就已经开始失控。

在 userPromptKeywords.ts 里,这家公司用来判断用户是否“情绪崩溃”的方式,是这样一段正则:/b(wtf|shit|fuck|horrible|awful|terrible)b/i,也就是说,这家号称拥有最先进大语言模型的公司,在做情绪识别时,用的还是最原始的关键词匹配。这就像一家卡车公司,结果还在用马来拉零件。也有人解释,说正则更快、更便宜,不需要额外的推理调用,这在工程上是合理的。这话当然没错。但这恰恰说明这是一个“能跑就行”的工程选择。便宜优先,速度优先,先上线再说。

工程文化是没有开关的。一个能写出 12 层嵌套、把所有逻辑塞进一个函数里的团队,不会在写模型训练代码、写桌面应用的时候突然变得严谨起来。

这家公司一边卖 AI 编程工具,一边却没法用自己的 AI 编程工具做出一个质量过关的产品。那些百分比,从一开始就是用来讲故事的,而不是用来交付产品的。80、90、95、100——在源码被看见之前,没有人真正问过,“100%”到底产出了什么。

AI 只是把原本的东西放大。原本有工程纪律,就会被放大成更好的产出;原本没有纪律,就会以机器的速度放大成技术债。Anthropic 选了一条路:更快一点,让 Claude 去检查 Claude。出了问题,就再快一点。

如果在一家“构建未来”的公司里,“100% AI 编写”意味着一个包含 486 个分支、3167 行代码的函数,一个桌面应用包含无数 bug 就能上线,那这个未来需要的不是更快的工程,而是更好的工程。

如果这就是一家正在把行业往前带的公司所代表的质量标准,那这个方向本身是有问题的。

参考链接:https://x.com/theo/status/2044680030706663726