姚顺雨的Bet - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

姚顺雨的Bet

2026-04-25 / 阅读约13分钟

来源：凤凰网

腾讯发布混元3（Hy3）preview版，由姚顺雨领衔开发，采用MoE架构，强调真多轮对话、长记忆等能力，通过与产品共同设计及稳健扩规模方法推进，旨在实现模型级闭环，为后续版本打下基石。

「We are just getting started.」

Hy3 preview 发布当天，姚顺雨在 X 上说，当下的目标是做超越公开榜单的、全面能力的实用模型，而做到这件事的唯一方法是和多种产品共同设计（co-design），同时稳健地扩规模（scaling solidly）。

这位起跑刚三个月的腾讯 AI 主将，将 4 月 23 号发布的混元 3（Hy3）preview 版作为一个初试之作。

此前，外界对这款模型的高预期来自两个方面。

年初，马化腾和刘炽平都承认腾讯在 AI 领域慢了，刘炽平甚至直言不讳，说以前腾讯的模型是高中生背题应考，成绩单好看，但真上考场就完蛋。反思的同时，腾讯已经在酝酿改变，外界也格外期待腾讯的自研大模型接下来怎么走。

另一个期待来自姚顺雨本人。

姚顺雨顶着从姚班到硅谷的系列光环，去年 9 月离开 OpenAI 加入腾讯，12 月正式出任首席 AI 科学家，成为腾讯 AI 真正的领路人。在近些年的 AI 发展历程上，人才密度往往决定 AI 的战局。

第一个作品正是 Hy3 Preview，1 月底启动训练，4 月发布上线，从训练到开源不到三个月——即便在加速内卷的大模型领域，这个速度依然很快。

MoE 架构，295B 总参数，21B 激活参数，最大支持 256K 上下文长度，快慢思考融合。Hy3 preview 已在元宝、ima、CodeBuddy、WorkBuddy、QQ、腾讯文档等多个主线产品首发上线。

Hy3 preview 的参数规模并没有冲到头，传统跑分上没有全面刷榜，而它强调的能力——真多轮对话、长记忆、工具调用、Agent——也不在大家熟悉的「炸裂」或「变天」的话语体系里。

姚顺雨自己也没把它看做一个集大成的作品，他说这是「重建的开始」，而非外界期待的终点。

确实，姚顺雨加入腾讯时候，腾讯的 AI 建设在国内乃至全球一线大厂梯队中情况并不乐观。

腾讯 2023 年就开始做混元，但内部定位并不清晰。初期内部给到的关注相对有限，也不是各业务线的默认选项，甚至在自家业务上，混元都坐不上主桌，一些腾讯的核心业务甚至绕开混元，自己找方案。

2025 年 2 月，元宝接入 DeepSeek R1，用户量爆发式增长，一度登上 App Store 免费榜第二。对于腾讯的产品，这当然是好事，但从另一个角度看，腾讯内部可能也敲响了警钟——自己的模型不够用，用户会直接找别人的模型。

借别人的能力可以过一阵，但微信、企业服务、游戏 AI、广告智能投放这些核心场景需要深度定制、可控可调的能力，通用 API 解决不了。

混元必须自己站起来，但问题是怎么站。这是姚顺雨需要解决的问题。

姚顺雨个性张扬，从不掩饰自己的野心。从 Open AI 加入腾讯之后，姚的目标无疑是做出国内乃至全球最顶尖的模型。

但要实现野心，他要解的首先不是算法题或者工程题，而是组织题。

有熟悉姚顺雨的人说，过去腾讯在混元上的经验，对姚顺雨而言局面是「又破又立」——团队亟需重组，基建需要重建，组织需要重新梳理，更重要是要明确腾讯做大模型的核心原则。

纠正错误动作，有时候比从头学习新动作还要难上许多，因为错误动作已经成了肌肉记忆了。

接下来的几个月，他做了一连串调整。重构组织，从业界吸引人才、重建数据和基建……这几乎是重建腾讯 AI 的链路。

在 2026 年 3 月 20 日，成立十年的腾讯 AI Lab 正式撤销，核心研发人员全部并入大语言模型部，统一向姚顺雨汇报。所有 AI 研究力量收拢，聚焦混元单一主线，姚顺雨终于成了腾讯 AI 真正的核心。

新组建的团队里，很多核心研究员是 2025 年底才陆续到位的。

对一个新团队的第一个公开版本来说，合理目标不是 SOTA，是把链路跑通，把几个关键能力做出来。

Hy3 preview 的定位正是如此。它显然承载不了姚顺雨全部野心，而只是通往他野心的第一步。

不过，这个用来练兵探路的产品，很多方面也很姚顺雨，体现了他的判断，或者说 Bet。

AI 行业的人喜欢说「Bet」，押注。押注一个判断，押注一条工程路线。当初，Google 押注了 Transformer 的左边，OpenAI 押注右边——最终有了如今的 AI 局面。

现在每家头部公司都在下不同的赌注——字节押豆包入口，阿里押千问的 API 和 C 端双轨，DeepSeek 押技术极限。

腾讯呢？腾讯押的是什么？

要回答腾讯押的是什么，先看 Hy3 preview 具体做了什么取舍。

如前所说，在规模上，腾讯选了平衡。Hy3 preview 是 295B 总参数，21B 激活参数——放在头部 MoE 里属于中等偏下。但相比此前的 Hy2，本次的预览版已经实现了三个月内的巨大的跨越：近乎重构模型的底座。

这种选择背后大概有几层考虑。一层是新团队第一次跑完整流程，不会直接上极端参数，这应该是 Hy3 正式版会做的事情；一层是大模型时代的 Scaling 在拉平，多花十倍成本换来 5% 的领先，用户感受不到。

Hy3 Preview 选择的 MoE 路线，是目前大模型的主流选择。腾讯的 AI 不仅是独立产品，更是嵌在分发场景里，而分发入口（微信、元宝、企业微信）每天产生的调用量是天文数字。

如果用密集的几百亿参数模型，单次推理成本是 MoE 的十几倍，这个差距乘以日调用量，是任何业务模型都算不过来的账。

这不仅是腾讯的选择，也是行业的共识。刚刚发布的 DeepSeek V4，也是稀疏 MoE，激活率 2.3%。这当然是个比 HY3 Preview 规模大得多的模型，但在稀疏方面，甚至要更加激进。

在架构上，腾讯选了融合。

Hy3 preview 把快慢思考做成一个端点，模型内部根据输入的复杂度自己判断走哪条路径。

DeepSeek 之前把快慢思考做成两个端点——V3 一个，R1 一个，开发者调用时自己选。两种做法对应两种不同的用户假设。DeepSeek 假设用户知道自己要什么——一个调用 API 的开发者，他清楚这次请求复杂还是简单。

Hy3 preview 假设用户不用知道。一个在元宝里问「周末带孩子去哪玩」的人，他不会先想「这个问题需要快回答还是慢回答」再发出来。

在这个场景里，融合架构几乎是唯一的合理选择。

这个选择也很姚顺雨。他 2022 年提出过一个框架叫 ReAct——让模型在「推理」和「行动」之间自己决定切换的时机。后来的 Tree of Thoughts、SWE-agent 都是沿着这条路往前走。

让模型自主决定下一步做什么，是 Agent 作为一种产品形态成立的前提。Hy3 preview 的快慢融合是这条线索在推理路径上的具体实现。模型不只决定「做什么」，也决定「怎么做」。

在评估和能力上，腾讯选了场景化。

在复杂推理上，Hy3 preview 并不弱。它在清华大学求真书院数学博士资格考试（26 春）取得国内最高分，在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务上表现突出。

能力本身是有的，但显然，混元这次不把重心放在容易被刷的公开榜单上，而是通过自建题目、真实任务和产品众测来评估「真实战斗力」——腾讯为此新建了 CL-bench、CL-bench-Life 等内部评测集来评估上下文学习能力。

可以说这是腾讯的扬长避短，但这个选择背后，也是评估方式本身在变。

学术评测有一个基本假设——每道题独立打分，最后平均得分。这个假设在数学题、代码题上是合理的，但在真实工作里事情不是这样发生的。

一个工程师在同一个代码库里干活，第十个 bug 一定比第一个解得快——前面的工作改变了他解决后面问题的方式。但现在的 Agent 评测里，模型解决了 99 个任务并不会让它在第 100 个任务上更熟练，因为每个任务都是从头开始。

姚顺雨在《The Second Half》里指出过，学术评测的独立假设在真实 Agent 场景里不成立。Hy3 preview 强调的真多轮、长记忆、Context learning——本质上都要求「上下文是累积的」。

DeepSeek 在 V4 上也给了类似的信号——它主打 SWE-bench Verified 这种真实编程任务的成绩，而不是传统的学术知识测试。两家都在把评估尺度从「考试题」往「真实工作」上挪。

姚顺雨在推特上说到了做出新一代大模型的方法：和多种产品共同设计（co-design），同时稳健地扩规模（scaling solidly）。

后者容易理解，扩规模也是每个模型厂都在做的事情，那么 Co-design 是什么？

简单来说，就是不要孤立造轮子，也不是训练出模型之后，再去做产品和业务适配，而是模型和产品从设计阶段就同步推进，让产品反馈来倒逼模型迭代。

这背后是腾讯的优势——分发入口。

想象一下 2026 年的腾讯用户可能怎么接触到混元。你在微信里收到一条消息，下面可能有个按钮帮你总结；你打开元宝问一个问题，答案来自 Hy3；你在企业微信里让 AI 帮你订会议室、写周报。

当然，分发入口未必是必胜牌，像百度也有最大的搜索入口，可文心一言并没有把入口转化成 AI 时代的优势。分发优势要真的变成胜势，需要模型本身能做出「嵌入业务之后才有的价值」。

腾讯押的就是这个假设，而且 2026 年的 AI 行业恰好给了这种押注一些空间。

参数规模的边际收益在递减，技术差异化越来越难，几家国产模型用的是同一套配方。上半场靠更大的参数、更多的榜单；下半场关心的是场景，是嵌入。腾讯押的恰好是下半场的牌。

Hy3 preview 完成了它作为练兵版本的使命——把方法论跑通了，把新组织验证了，把同向印证的信号也拿到了，更重要的是为后续更多的版本打了下了第一块基石。

但这只是第一步，真正要让野心成立，还有几件事必须在接下来的版本上兑现。

preview 是 295B 的练兵版。真正的主力版本——混元 3——将在更大的参数量级上证明方法论依然成立。

有些问题只能等主力版本来回答，比如稀疏 MoE 的 Co-design 能不能扩展、快慢融合能不能在更大规模上保持效率、场景化评估能不能应对更多业务的复杂度。姚顺雨自己说的「scaling solidly」就是在这一层上兑现的。

这里有一个最关键的跨越——从产品级闭环到模型级闭环。

过去互联网时代的数据闭环是产品闭环，用户反馈改进产品、产品改进再反馈，这件事腾讯做了十几年，轻车熟路。AI 时代的数据闭环是模型闭环——要求模型本身能消化反馈、改进自己。

这是一个开放的研究问题，没有任何公司证明已经完全跑通。preview 在 Co-design 上拿到了产品级的初步反馈，主力版本能不能跨越到模型级的闭环，是整个野心能不能成立的最关键技术验证。

腾讯的组织能力也会继续经受考验。

姚顺雨的手术做完了——三个部门独立建制、AI Lab 并入、基建重建。但一次性的重建不是组织能力，是组织事件。迭代节奏能不能持续？业务线和模型线能不能长期协同？Co-design 能不能在腾讯的业务复杂度里真正扎下根？这些都要靠时间验证。

组织这一层最大的风险不在技术，在文化。Co-design 需要模型团队和业务团队深度磨合，腾讯有名的是业务线的独立性——业务线能不能长期耐心接受和模型团队同步推进，是一个开放的问题。

刘炽平说 AI 投入至少翻倍，这体现了决心；但决心在一年后、两年后还在不在，取决于混元 3 及后续版本能不能拿出让业务线信服的东西。

按照目前的节奏，在 Hy3 正式版上，我们会看到规模会继续扩大，姚顺雨的方法论会在更大参数量级上接受验证，也会与其他顶尖大模型正面较量也会正面展开。

到那一天，恐怕才是检验今天这套模型、产品以及组织方法论更大的有效性的时刻，姚顺雨和混元团队将继续冲刺。

上一篇：月暗与DeepSeek的“听牌”时刻

下一篇：贝莱德全球首席投资策略师称在人工智能热潮中看好半导体和硬件股

返回列表

热文阅读

2 天前

退钱，Claude 4.8连夜大降智，GPT-5.6算力遭“腰斩”

2 天前

苹果代工厂塔塔电子被黑之际，iPhone 18 Pro Max 跌落测试视频流出

2 天前

Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型

1 天前

特斯拉公布超级芯片工厂首位高管英特尔17年老将加盟

1 天前

上海高速特斯拉撞护栏起火，理想车主冲上前救出女司机

2 天前

字节200亿美元豪赌AI，但赌的是B端

2 天前

估值200亿，中国最像特斯拉机器人的公司浮出水面

2 天前

苹果发起 DMCA 维权，全网清除 iPhone 18 Pro 泄露素材

2 天前

存储巨头下场“救市”

2 天前

英伟达，机器人团队开放招聘

上一篇：月暗与DeepSeek的“听牌”时刻

下一篇：贝莱德全球首席投资策略师称在人工智能热潮中看好半导体和硬件股

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们