笔记君说:
最近AI圈炸锅了,此前一直以低融资节奏、强自主可控著称的DeepSeek,被曝出新一轮融资计划——估值不低于100亿美元,计划募集至少3亿美元。
消息一出,各种讨论声音立刻分成了两派:
一种说,完了,连DeepSeek都顶不住AI烧钱的压力;另一种说,AI圈要变天了,梁文锋这是要憋个大的。
说实话,如果你只看到“缺钱”,就把梁文锋和这件事,彻底看小了。
DeepSeek缺不缺短期运营的钱?
它背后是国内对冲基金巨头幻方量化,创始人梁文锋在量化领域深耕多年,早已实现财富自由。
2023年DeepSeek成立时,由幻方量化及创始团队提供了充足的初始研发资金支持,核心投入全部聚焦大模型底层技术研发。
所以,显然不缺。
过去两年,AI大模型融资潮汹涌,数亿美元的融资单一轮接一轮,唯独DeepSeek是个异类。
那问题来了: 之前一直严控融资节奏,现在为什么要启动新一轮融资?
显然,大模型之争,不是接下来一两年可以结束的,未来三年有可能争出个分晓,现在进入了决战期,或者决战期前夜。
因此,必须算算财务账。
第一笔,是算力的账。
AI大模型的竞赛,已经到了贴身肉搏的阶段。
根据斯坦福大学2026年度AI指数报告,2025-2026年,中美头部大模型在核心能力基准上的差距持续收窄,在多个垂直赛道已实现持平甚至反超。
但越往顶尖走,每往前追一步,边际成本就越高。就像跑步,你从15秒跑到13秒,多练练就行;但你要从10秒跑到9秒9,每提升0.1秒,都要付出几倍的努力和成本。

就在3月31日,OpenAI刚以8520亿美元的估值完成了1220亿美元的融资。 梁文锋这次启动融资,核心就是为长期研发储备充足的算力弹药。
第二笔,是人才的账。
过去半年,DeepSeek有几位核心研发成员陆续离职,被国内大厂挖走了。不是这些人不认同梁文锋的技术理想,是外面给的条件,实在太有诱惑力了。
据财经媒体晚点了解,前DeepSeek研究员郭达雅近亿元入职字节跳动负责大模型研发的组织Seed,但需要满足一定条件才能拿全。
更别说,同期智谱、MiniMax这些同行纷纷上市,股价一路上涨,人家手里的期权,有了明确的市场化财富锚点。
而DeepSeek此前一直没有进行大规模市场化融资,公司估值没有明确的市场标尺,团队成员手里的期权价值,也缺少清晰的参照。

这次融资,通过市场化方式给公司定了估值,本质上就是给团队搭建了合理的长期激励体系:我不会让相信长期价值的人,吃亏。
很多人盯着融资的数字,却忽略了这次事件里,最影响行业格局的一件事:
据国内多家行业媒体爆料,DeepSeek即将发布的V4模型,核心完成了对华为昇腾算力生态的深度适配,大幅降低了对英伟达生态的依赖。
这件事,也正是英伟达创始人黄仁勋在近期采访中公开表达关注的核心原因。
过去全球绝大多数主流AI大模型,从OpenAI的GPT,到Anthropic的Claude,核心训练与部署都深度绑定英伟达的生态:
训练靠英伟达GPU,底层算子( 是深度学习框架与硬件之间的关键桥梁 ),是模型执行的最小可计算单元适配依赖英伟达的CUDA生态,相当于整个行业的核心算力命脉,很大程度上攥在老黄手里。
一旦出现供应链限制,整个公司的研发、训练、推理都可能受到严重影响,这就是我们常说的“卡脖子”风险。
但DeepSeek这次,在主流开源大模型的国产适配这件事上,迈出了关键一步。

据行业爆料,V4将深度适配华为最新的昇腾芯片。
DeepSeek的工程师们花了大量时间,完成了算子层兼容、通信库适配、训练框架底层优化,实现了模型从英伟达CUDA生态到华为昇腾CANN架构的深度迁移。
如果V4能在昇腾芯片上跑出有竞争力的性能,它将成为国内少数实现从底层算力到模型层全栈国产适配的通用大模型之一。
要知道,华为盘古大模型从2020年立项起,就基于昇腾芯片+CANN计算架构+MindSpore框架的全栈国产生态开发,是国内最早实现完全不依赖英伟达CUDA生态的前沿大模型。
更早的悟道2.0、紫东太初等大模型,也早已实现了纯国产芯片的落地部署。

而DeepSeek的核心突破,是把一款全球开发者广泛使用的主流开源大模型,完成了对国产算力生态的深度适配,这会大幅降低整个行业对英伟达芯片的依赖。
这也是黄仁勋直言这件事“对美国来说将是一个糟糕的结果”的核心原因: 一旦主流开源大模型在国产算力生态上实现了规模化落地,美国芯片在AI领域的护城河,就会被彻底打开一个缺口。
那这个让行业高度关注的V4,到底有哪些值得期待的能力?
根据目前的行业爆料,有三个核心方向的升级。
1.极致的效率优化,延续花小钱办大事的核心思路
据行业爆料信息显示,V4将采用MoE(混合专家)架构,总参数规模达到万亿级别。
你可以把MoE混合专家架构,理解成一个分工明确的专家团队:
遇到不同的问题,系统只会调用最擅长解决这个问题的几位专家,而不是让所有专家一起上,这样就能在大幅提升模型总能力上限的同时,有效控制住单次推理的算力消耗。
2.长上下文能力的大幅突破
据行业爆料,V4引入了名为Engram的条件记忆架构,目标上下文窗口达100万token,在内部测试中实现了较高的信息召回率。
你可能对这个数字没概念,我给你举个例子:100万token的上下文窗口,相当于你可以一次性把几十本长篇小说、整个公司的全年业务文档全喂给它,它能精准定位到你需要的任意细节信息。
而目前全球公开商用的头部模型中,Claude 3.7 Opus已开放200万token上下文窗口,行业长上下文能力的竞争已进入白热化阶段。
3.代码能力的针对性强化
V4从立项之初,就把代码生成与长上下文代码推理作为核心优化目标。
据内部测试爆料,V4在SWE-bench、HumanEval等行业通用代码能力基准上的表现,已接近甚至部分追平全球头部模型,核心优化方向是整个代码仓库级别的复杂bug修复、长链路代码推理。
为什么DeepSeek能在短短几年里,从一众大模型公司里杀出重围,成为全球开发者都关注的标杆?
很多人会说,因为梁文锋是天才,因为他们技术牛。但我告诉你,技术只是最终的结果,真正让它能站稳脚跟的,是它3个和行业主流打法完全不同的组织逻辑。
第一个反常识:全球最卷的AI行业,它靠“拒绝无效加班”守住了研发效率
现在AI行业卷成什么样,你应该有所耳闻。
全球顶尖的AI公司,从OpenAI到谷歌,再到国内的大厂,核心研发人员一周工作70-80小时是常态,996只能算基础配置,甚至007连轴转,咖啡当水喝、睡在公司都是家常便饭。
但DeepSeek,却在这个卷到极致的行业里,保持了相对宽松的工作节奏。
它不强制打卡,不推行996,没有所谓的“奋斗者协议”,平日里公司的多数员工,下午6-7点就可以准时收拾东西离开公司。
甚至,公司还给员工免费提供下班后的球类课程,运动场地可以报销,明着鼓励大家下班别耗在公司,多去运动、多休息。

核心管理团队有一个共识: 一个人一天能高质量输出的时间,很难超过6-8小时。
DeepSeek用结果证明了: 真正的创新,从来不是靠熬时间熬出来的,是靠高质量的专注堆出来的。
第二个反常识:不搞繁琐层级,它用极致扁平化干掉了内耗
很多人都好奇,据DeepSeek2025年公开采访披露,其团队规模超300人,其中核心研发团队超200人,怎么能干出大厂几千人都未必能做好的成果?
核心就在于, 它保持了极致扁平化的组织架构,最大程度干掉了沟通内耗。
DeepSeek的核心研发团队,采用了弱层级、强协同的管理模式,没有大厂常见的层层汇报的繁琐流程,也没有泾渭分明的部门墙。
做基础模型的团队、做底层基建的团队、做数据的团队,不是各干各的,而是交叉分工、深度协同——模型还在定版阶段,三个团队就全链路参与进来了,彻底避免了大厂里常见的“内部乙方”的低效内耗。
更难得的是,它没有僵化的分工限制,没有强制的年度计划,给了研发人员极高的创新自由度。
一个新方向的启动,往往就是三五个人凑在一起,觉得一个技术方向有价值,就可以组队开干;如果这个idea跑出了潜力,公司就会自上而下调配资源,全力支持。
所有的精力、所有的资源,全都砸在了技术创新本身。这就是它最核心的竞争力:用极致扁平的组织,把创新的效率,拉到了最高。
第三个反常识:不唯“大厂经验论”,它给了年轻人足够的创新空间
DeepSeek的人才体系,走了一条不一样的路:它既不排斥资深专家,也给了年轻人足够的成长和创新空间。
一方面,它通过社招引入了大量拥有数十年行业经验的资深专家,包括首席科学家刘群、CTO林通等核心管理团队成员,均拥有深厚的行业积累,官方招聘页面也长期开放大量要求3-10年行业经验的社招岗位,绝非外界传言的“几乎不社招”。
但另一方面,它也通过校招吸纳了大量顶尖院校的年轻研发人才,核心研发团队里,有大量本科、硕士学历的年轻从业者,他们没有被固化思维束缚,敢想敢干,反而做出了很多原创性的技术突破。

梁文锋的人才观,特别值得所有创业者学习: 创新需要的,是不知天高地厚的探索精神。
AI是一个全新的行业,没有成熟的路径可走,没有固定的经验可复用。这些年轻人,没有包袱,没有固化的思维,反而能在无人区里,走出一条新的路。
我给你拆解三个最核心的认知,也是他所有决策的底层逻辑,不管你是创业者还是管理者,都能用得上。
第一,第一性原理:所有的创新,都始于对本质的追问
梁文锋团队从一开始,就抓住了最核心的本质:他们认为,语言是通用智能的核心载体,因此在成立初期,就把核心资源聚焦于语言大模型的底层突破,没有盲目跟风分散精力。
但同时,他们也并未放弃多模态赛道的布局,已于2025年3月官方发布了DeepSeek-VL2多模态大模型,实现了图文理解、视觉问答等多模态能力的落地,做到了“核心聚焦,多点布局”。
还有他一直坚持的“效率优先”,本质也是第一性原理的应用。
他没有跟着行业堆算力、堆参数,而是死磕模型效率优化,用远低于行业头部玩家的投入,做出了全球开发者都认可的顶尖模型。
这就是第一性原理的力量:
不跟着别人的规则卷,回到事物的本质,重新制定游戏规则。

你跟着别人的跑道跑,永远只能拿第二;只有你自己开一条新跑道,你才有可能成为领跑者。
第二,长期主义:拒绝短期诱惑,才能拿到长期的最大回报
他之前严控融资节奏,是长期主义:他想保持DeepSeek的独立性,不被短期商业变现的压力干扰,能安安心心做长期的、看不到短期回报的原创研究,不用为了短期财报,去做不符合长期目标的事。
他现在选择启动新一轮融资,依然是长期主义。
他看清了行业终局,AI竞赛已经到了生死关头,想要实现通用人工智能的底层突破,想要打造自主可控的AI技术生态,必须要有充足的弹药储备,必须要给团队搭建合理的长期激励体系,才能打赢这场长期的硬仗。

真正的长期主义,是目标不变,路径随时调整。
第三,终局思维:你能走多远,取决于你眼里的终局是什么
梁文锋眼里的终局,从来不是做一家短期赚钱的上市公司,而是两个核心目标:
第一,实现通用人工智能的底层技术突破,做出真正有原创性的技术成果;
第二,打造自主可控的AI技术生态,彻底摆脱核心技术被卡脖子的困境,让中国AI有自己的根。
为什么他坚持开源?因为只有开源,才能建立起繁荣的开发者生态,才能让更多人参与到AI技术的创新中来,实现真正的技术普惠;
为什么他死磕国产芯片适配?因为只有把根扎在国产硬件上,才不会被人卡脖子,才能真正实现全链路的自主可控;
为什么他愿意投入长期看不到回报的原创研究?因为只有原创,才能真正实现技术突围,跟着别人的路走,永远只能当老二。
当然,我们也要客观地说,DeepSeek能取得今天的行业地位,核心离不开创始团队在高性能计算、AI算法领域的多年积累,幻方量化多年沉淀的算力基建与工程化能力,以及巨额的研发投入,而独特的组织管理模式,则为技术创新提供了良好的土壤,二者缺一不可。
这个时代,从来都不缺聪明的跟风者,缺的是敢走无人区、敢啃硬骨头、敢坚持长期主义的理想主义者。
中国科技的突围,从来不是靠一个天才,而是靠一群愿意沉下心来,做底层 创新、做长期研究的人。
