谷歌AI推出了实验性评估工具Stax,旨在帮助开发者根据自定义标准测试和分析大语言模型。Stax具备“快速比较”和“项目与数据集”两大功能,支持结构化的评估流程,提高了测试效率和一致性。该工具内置了流畅性、基础性和安全性等多种评估器,并允许开发者自定义评估标准,以适应不同应用场景的需求。通过Stax的分析仪表板,开发者可以直观地比较模型表现,从而更有效地评估模型在实际应用中的适用性。