14B打败671B 微软rStar2-Agent在数学推理上超过DeepSeek-R1
2025-09-02

LLM现已具备强大的推理能力,关键在于测试时扩展技术。通过延长思维链(CoT),即增加思考时间,可显著提升性能。尤其当结合大规模强化学习和可验证奖励(RLVR)进行优化时,效果更为显著。