姚顺雨的Bet
1 天前 / 阅读约13分钟
来源:凤凰网
腾讯发布混元3(Hy3)preview版,由姚顺雨领衔开发,采用MoE架构,强调真多轮对话、长记忆等能力,通过与产品共同设计及稳健扩规模方法推进,旨在实现模型级闭环,为后续版本打下基石。

「We are just getting started.」

Hy3 preview 发布当天,姚顺雨在 X 上说,当下的目标是做超越公开榜单的、全面能力的实用模型,而做到这件事的唯一方法是和多种产品共同设计(co-design),同时稳健地扩规模(scaling solidly)。

这位起跑刚三个月的腾讯 AI 主将,将 4 月 23 号发布的混元 3(Hy3)preview 版作为一个初试之作。

此前,外界对这款模型的高预期来自两个方面。

年初,马化腾和刘炽平都承认腾讯在 AI 领域慢了,刘炽平甚至直言不讳,说以前腾讯的模型是高中生背题应考,成绩单好看,但真上考场就完蛋。反思的同时,腾讯已经在酝酿改变,外界也格外期待腾讯的自研大模型接下来怎么走。

另一个期待来自姚顺雨本人。

姚顺雨顶着从姚班到硅谷的系列光环,去年 9 月离开 OpenAI 加入腾讯,12 月正式出任首席 AI 科学家,成为腾讯 AI 真正的领路人。在近些年的 AI 发展历程上,人才密度往往决定 AI 的战局。

第一个作品正是 Hy3 Preview,1 月底启动训练,4 月发布上线,从训练到开源不到三个月——即便在加速内卷的大模型领域,这个速度依然很快。

MoE 架构,295B 总参数,21B 激活参数,最大支持 256K 上下文长度,快慢思考融合。Hy3 preview 已在元宝、ima、CodeBuddy、WorkBuddy、QQ、腾讯文档等多个主线产品首发上线。

Hy3 preview 的参数规模并没有冲到头,传统跑分上没有全面刷榜,而它强调的能力——真多轮对话、长记忆、工具调用、Agent——也不在大家熟悉的「炸裂」或「变天」的话语体系里。

姚顺雨自己也没把它看做一个集大成的作品,他说这是「重建的开始」,而非外界期待的终点。

确实,姚顺雨加入腾讯时候,腾讯的 AI 建设在国内乃至全球一线大厂梯队中情况并不乐观。

腾讯 2023 年就开始做混元,但内部定位并不清晰。初期内部给到的关注相对有限,也不是各业务线的默认选项,甚至在自家业务上,混元都坐不上主桌,一些腾讯的核心业务甚至绕开混元,自己找方案。

2025 年 2 月,元宝接入 DeepSeek R1,用户量爆发式增长,一度登上 App Store 免费榜第二。对于腾讯的产品,这当然是好事,但从另一个角度看,腾讯内部可能也敲响了警钟——自己的模型不够用,用户会直接找别人的模型。

借别人的能力可以过一阵,但微信、企业服务、游戏 AI、广告智能投放这些核心场景需要深度定制、可控可调的能力,通用 API 解决不了。

混元必须自己站起来,但问题是怎么站。这是姚顺雨需要解决的问题。

姚顺雨个性张扬,从不掩饰自己的野心。从 Open AI 加入腾讯之后,姚的目标无疑是做出国内乃至全球最顶尖的模型。

但要实现野心,他要解的首先不是算法题或者工程题,而是组织题。

有熟悉姚顺雨的人说,过去腾讯在混元上的经验,对姚顺雨而言局面是「又破又立」——团队亟需重组,基建需要重建,组织需要重新梳理,更重要是要明确腾讯做大模型的核心原则。

纠正错误动作,有时候比从头学习新动作还要难上许多,因为错误动作已经成了肌肉记忆了。

接下来的几个月,他做了一连串调整。重构组织,从业界吸引人才、重建数据和基建……这几乎是重建腾讯 AI 的链路。

在 2026 年 3 月 20 日,成立十年的腾讯 AI Lab 正式撤销,核心研发人员全部并入大语言模型部,统一向姚顺雨汇报。所有 AI 研究力量收拢,聚焦混元单一主线,姚顺雨终于成了腾讯 AI 真正的核心。

新组建的团队里,很多核心研究员是 2025 年底才陆续到位的。

对一个新团队的第一个公开版本来说,合理目标不是 SOTA,是把链路跑通,把几个关键能力做出来。

Hy3 preview 的定位正是如此。它显然承载不了姚顺雨全部野心,而只是通往他野心的第一步。

不过,这个用来练兵探路的产品,很多方面也很姚顺雨,体现了他的判断,或者说 Bet。

AI 行业的人喜欢说「Bet」,押注。押注一个判断,押注一条工程路线。当初,Google 押注了 Transformer 的左边,OpenAI 押注右边——最终有了如今的 AI 局面。

现在每家头部公司都在下不同的赌注——字节押豆包入口,阿里押千问的 API 和 C 端双轨,DeepSeek 押技术极限。

腾讯呢?腾讯押的是什么?

要回答腾讯押的是什么,先看 Hy3 preview 具体做了什么取舍。

如前所说,在规模上,腾讯选了平衡。Hy3 preview 是 295B 总参数,21B 激活参数——放在头部 MoE 里属于中等偏下。但相比此前的 Hy2,本次的预览版已经实现了三个月内的巨大的跨越:近乎重构模型的底座。

这种选择背后大概有几层考虑。一层是新团队第一次跑完整流程,不会直接上极端参数,这应该是 Hy3 正式版会做的事情;一层是大模型时代的 Scaling 在拉平,多花十倍成本换来 5% 的领先,用户感受不到。

Hy3 Preview 选择的 MoE 路线,是目前大模型的主流选择。腾讯的 AI 不仅是独立产品,更是嵌在分发场景里,而分发入口(微信、元宝、企业微信)每天产生的调用量是天文数字。

如果用密集的几百亿参数模型,单次推理成本是 MoE 的十几倍,这个差距乘以日调用量,是任何业务模型都算不过来的账。

这不仅是腾讯的选择,也是行业的共识。刚刚发布的 DeepSeek V4,也是稀疏 MoE,激活率 2.3%。这当然是个比 HY3 Preview 规模大得多的模型,但在稀疏方面,甚至要更加激进。

在架构上,腾讯选了融合。

Hy3 preview 把快慢思考做成一个端点,模型内部根据输入的复杂度自己判断走哪条路径。

DeepSeek 之前把快慢思考做成两个端点——V3 一个,R1 一个,开发者调用时自己选。两种做法对应两种不同的用户假设。DeepSeek 假设用户知道自己要什么——一个调用 API 的开发者,他清楚这次请求复杂还是简单。

Hy3 preview 假设用户不用知道。一个在元宝里问「周末带孩子去哪玩」的人,他不会先想「这个问题需要快回答还是慢回答」再发出来。

在这个场景里,融合架构几乎是唯一的合理选择。

这个选择也很姚顺雨。他 2022 年提出过一个框架叫 ReAct——让模型在「推理」和「行动」之间自己决定切换的时机。后来的 Tree of Thoughts、SWE-agent 都是沿着这条路往前走。

让模型自主决定下一步做什么,是 Agent 作为一种产品形态成立的前提。Hy3 preview 的快慢融合是这条线索在推理路径上的具体实现。模型不只决定「做什么」,也决定「怎么做」。

在评估和能力上,腾讯选了场景化。

在复杂推理上,Hy3 preview 并不弱。它在清华大学求真书院数学博士资格考试(26 春)取得国内最高分,在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务上表现突出。

能力本身是有的,但显然,混元这次不把重心放在容易被刷的公开榜单上,而是通过自建题目、真实任务和产品众测来评估「真实战斗力」——腾讯为此新建了 CL-bench、CL-bench-Life 等内部评测集来评估上下文学习能力。

可以说这是腾讯的扬长避短,但这个选择背后,也是评估方式本身在变。

学术评测有一个基本假设——每道题独立打分,最后平均得分。这个假设在数学题、代码题上是合理的,但在真实工作里事情不是这样发生的。

一个工程师在同一个代码库里干活,第十个 bug 一定比第一个解得快——前面的工作改变了他解决后面问题的方式。但现在的 Agent 评测里,模型解决了 99 个任务并不会让它在第 100 个任务上更熟练,因为每个任务都是从头开始。

姚顺雨在《The Second Half》里指出过,学术评测的独立假设在真实 Agent 场景里不成立。Hy3 preview 强调的真多轮、长记忆、Context learning——本质上都要求「上下文是累积的」。

DeepSeek 在 V4 上也给了类似的信号——它主打 SWE-bench Verified 这种真实编程任务的成绩,而不是传统的学术知识测试。两家都在把评估尺度从「考试题」往「真实工作」上挪。

姚顺雨在推特上说到了做出新一代大模型的方法:和多种产品共同设计(co-design),同时稳健地扩规模(scaling solidly)。

后者容易理解,扩规模也是每个模型厂都在做的事情,那么 Co-design 是什么?

简单来说,就是不要孤立造轮子,也不是训练出模型之后,再去做产品和业务适配,而是模型和产品从设计阶段就同步推进,让产品反馈来倒逼模型迭代。

这背后是腾讯的优势——分发入口。

想象一下 2026 年的腾讯用户可能怎么接触到混元。你在微信里收到一条消息,下面可能有个按钮帮你总结;你打开元宝问一个问题,答案来自 Hy3;你在企业微信里让 AI 帮你订会议室、写周报。

当然,分发入口未必是必胜牌,像百度也有最大的搜索入口,可文心一言并没有把入口转化成 AI 时代的优势。分发优势要真的变成胜势,需要模型本身能做出「嵌入业务之后才有的价值」。

腾讯押的就是这个假设,而且 2026 年的 AI 行业恰好给了这种押注一些空间。

参数规模的边际收益在递减,技术差异化越来越难,几家国产模型用的是同一套配方。上半场靠更大的参数、更多的榜单;下半场关心的是场景,是嵌入。腾讯押的恰好是下半场的牌。

Hy3 preview 完成了它作为练兵版本的使命——把方法论跑通了,把新组织验证了,把同向印证的信号也拿到了,更重要的是为后续更多的版本打了下了第一块基石。

但这只是第一步,真正要让野心成立,还有几件事必须在接下来的版本上兑现。

preview 是 295B 的练兵版。真正的主力版本——混元 3——将在更大的参数量级上证明方法论依然成立。

有些问题只能等主力版本来回答,比如稀疏 MoE 的 Co-design 能不能扩展、快慢融合能不能在更大规模上保持效率、场景化评估能不能应对更多业务的复杂度。姚顺雨自己说的 「scaling solidly」 就是在这一层上兑现的。

这里有一个最关键的跨越——从产品级闭环到模型级闭环。

过去互联网时代的数据闭环是产品闭环,用户反馈改进产品、产品改进再反馈,这件事腾讯做了十几年,轻车熟路。AI 时代的数据闭环是模型闭环——要求模型本身能消化反馈、改进自己。

这是一个开放的研究问题,没有任何公司证明已经完全跑通。preview 在 Co-design 上拿到了产品级的初步反馈,主力版本能不能跨越到模型级的闭环,是整个野心能不能成立的最关键技术验证。

腾讯的组织能力也会继续经受考验。

姚顺雨的手术做完了——三个部门独立建制、AI Lab 并入、基建重建。但一次性的重建不是组织能力,是组织事件。迭代节奏能不能持续?业务线和模型线能不能长期协同?Co-design 能不能在腾讯的业务复杂度里真正扎下根?这些都要靠时间验证。

组织这一层最大的风险不在技术,在文化。Co-design 需要模型团队和业务团队深度磨合,腾讯有名的是业务线的独立性——业务线能不能长期耐心接受和模型团队同步推进,是一个开放的问题。

刘炽平说 AI 投入至少翻倍,这体现了决心;但决心在一年后、两年后还在不在,取决于混元 3 及后续版本能不能拿出让业务线信服的东西。

按照目前的节奏,在 Hy3 正式版上,我们会看到规模会继续扩大,姚顺雨的方法论会在更大参数量级上接受验证,也会与其他顶尖大模型正面较量也会正面展开。

到那一天,恐怕才是检验今天这套模型、产品以及组织方法论更大的有效性的时刻,姚顺雨和混元团队将继续冲刺。