Anthropic推出开源AI安全审计工具Petri,利用AI代理监测大型语言模型行为以识别风险。测试显示,14款主流模型均存在不同程度安全隐患,其中Claude Sonnet 4.5表现最佳,但仍存在行为失准。该工具推动AI安全测试从静态基准转向自动化持续监测,采用三级架构并提供开发者扩展资源。研究表明,生成式AI在自主权场景下易触发伦理风险,量化指标可提升安全研究效率。