MetaGPT 发布新型 AI 开发能力评估基准 RealDevWorld - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

MetaGPT 发布新型 AI 开发能力评估基准 RealDevWorld

2025-09-03

RealDevWorld，一个全新的AI开发能力评估基准，近日正式发布。该基准包含194项真实开发任务，涵盖显示、分析、游戏、数据四大领域，并强调端到端的评估方式。其创新的“代理即评委”模式，结合了自动化GUI测试与交互式评估，实现了92%的准确率，与人类专家评估的相关性达到85%。此外，AppEvalPilot框架在效率、时间和成本方面均优于传统方法。在测试中，AI模型MGX（BoN-3）和Lovable表现尤为突出，充分展示了AI在软件工程领域的巨大潜力。

上一篇：Airwallex空中云汇将通过收购OpenPay推出计费功能

下一篇：国防科大突破百万卫星困局：中国方案让太空不再“挤爆”

返回列表

热文阅读

2 天前

成立不到90天，阿里前高管创立的昆仑行机器人获数十亿元融资

2 天前

中国团队拿下ICRA'26最佳论文：Agentic Coding驱动工业制造通往自主通用智能

2 天前

被骂了一年的Codex，怎么突然爆了？

2 天前

奥特曼私人提款机曝光，OpenAI埋6650亿暗雷