RealDevWorld,一个全新的AI开发能力评估基准,近日正式发布。该基准包含194项真实开发任务,涵盖显示、分析、游戏、数据四大领域,并强调端到端的评估方式。其创新的“代理即评委”模式,结合了自动化GUI测试与交互式评估,实现了92%的准确率,与人类专家评估的相关性达到85%。此外,AppEvalPilot框架在效率、时间和成本方面均优于传统方法。在测试中,AI模型MGX(BoN-3)和Lovable表现尤为突出,充分展示了AI在软件工程领域的巨大潜力。