腾讯混元宣布开源首个多模态统一CoT奖励模型
2025-05-13

5月13日,腾讯混元联合上海AI Lab、复旦大学及上海创智学院发布全新研究工作UnifiedReward-Think,成功构建首个统一多模态奖励模型,该模型具备长链式推理能力,使奖励模型能在各视觉任务上实现“思考”,从而大幅提升对复杂视觉生成与理解任务的评估准确性、跨任务泛化能力及推理可解释性。目前,该项目已全面开源,涵盖模型、数据集、训练脚本及评测工具。