北京时间3月11日,据知情人士透露,跟林俊旸同时离职的原阿里通义实验室Qwen后训练负责人郁博文,已经加入字节Seed,担任视觉模型&多模态交互团队后训练负责人,向他曾经的老领导汇报。

据公开资料,郁博文本科就读于中南大学,本科毕业后考入中国科学院信息工程研究所攻读研究生。2022年,获得中国科学院大学博士学位。在攻读博士学位期间,郁博文专注于自然语言处理与信息抽取领域的研究,曾在ACL、EMNLP等国际学术会议上发表多篇论文。他曾在学术分享活动中提出将信息抽取任务转化为图结构问题的研究思路,包括将一元、二元及多元信息抽取分别建模为图中的连边、环及极大团查找问题,旨在解决实体重叠、嵌套和不连续等复杂场景的识别难题。凭借在学术研究上的优异表现,他曾获得中国科学院院长奖。
2022年博士毕业后,郁博文以“阿里星”身份加入阿里巴巴达摩院,担任算法专家(P7)。入职初期,他便深度参与了通义千问(Qwen)大模型的早期训练与研发工作,是千问团队的核心骨干成员。随着团队的发展,他逐渐成长为Qwen后训练(Post-training)负责人。
作为千问大模型的后训练负责人,郁博文在大模型的“对齐”与“精调”领域做出了重要贡献。他主导了Qwen系列Chat模型的研发,通过精细的监督微调(SFT)、强化学习(RLHF)及直接偏好优化(DPO)等技术手段,将通用大模型转化为符合人类价值观和使用习惯的对话模型。针对大模型和小模型的不同特点,他分别设计了“四阶段进化论”和“知识蒸馏”策略,使得Qwen模型在长文本生成、复杂推理及多模态理解等任务上表现出优异性能,特别是在Qwen3.5系列中,通过优化后训练流程,实现了在低显存占用下的高性能表现。在他的主导下,Qwen系列模型在LMSYS Chatbot Arena等全球权威评测中屡次进入前十。
2026年3月,阿里通义实验室启动了组织架构调整,计划将原本垂直整合的Qwen团队拆分为预训练、后训练、文本、多模态等多个平行的水平分工模块。这一调整直接导致郁博文的管理范围大幅缩小,且与其坚持的“预训练与后训练必须深度耦合”的技术理念产生冲突。此外,阿里高层对千问团队施加的商业化考核压力,也加剧了团队的分歧。
2026年3月3日,郁博文提交了辞职申请,并于3月4日正式离职,他的工作随后由前Google DeepMind高级资深研究员周浩接任。
作者申小飞,互联网大厂资深猎头,职业咨询师,大厂自媒体。
