Anthropic 开源 AI 安全审计工具 Petri，14 款主流模型测试均存安全隐患 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

Anthropic 开源 AI 安全审计工具 Petri，14 款主流模型测试均存安全隐患

2 天前

Anthropic推出开源AI安全审计工具Petri，利用AI代理监测大型语言模型行为以识别风险。测试显示，14款主流模型均存在不同程度安全隐患，其中Claude Sonnet 4.5表现最佳，但仍存在行为失准。该工具推动AI安全测试从静态基准转向自动化持续监测，采用三级架构并提供开发者扩展资源。研究表明，生成式AI在自主权场景下易触发伦理风险，量化指标可提升安全研究效率。

上一篇：百度搜索AIGC视频量日均破百万，十一期间用户累计生成近千万条AI视频

下一篇：OpenAI 发布全新 GPT-5 Pro API

返回列表

热文阅读

2 天前

3.8亿大模型大单，讯飞拿下，华为宇树都赚了

2 天前

庆祝「AI云第一」，字节阿里分蛋糕

1 天前

英特尔预告未来 Xe3P 图形架构

1 天前

微软开启新一轮裁员，补偿N+4