微软发布开源数学推理模型 rStar2-Agent
2025-09-02

微软近日发布了开源数学推理模型rStar2-Agent,该模型参数规模仅为140亿,却通过智能思考的方式,实现了与6710亿参数模型相当的性能。rStar2-Agent能够自主规划推理步骤、调用代码工具,并根据工具反馈验证思路,这一能力得益于其采用的GRPO-RoC算法、高效强化学习基础设施以及多阶段训练方案。这些创新使得rStar2-Agent在有限资源下仍能实现高效训练,并在多个任务中展现出强大的泛化能力。这一突破性进展为大模型的发展提供了新的思路,预示着未来模型可能更加注重智能思考和工具使用的能力。