微软 MAI 系列 AI 模型训练数据曝光，“仅商业授权”说法存在出入 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

微软 MAI 系列 AI 模型训练数据曝光，“仅商业授权”说法存在出入

3 小时前 / 阅读约2分钟

来源：IT之家

微软最新发布的MAI系列AI模型部分使用未获授权的开放网络数据训练，与其此前宣称的“仅采用企业级、干净且商业授权数据”不一致，引发争议。

IT之家 6 月 6 日消息，科技媒体 The Decoder 昨日（6 月 5 日）发布博文，报道称微软最新发布的 MAI 系列 AI 模型部分使用未获授权的开放网络数据训练，与其此前“仅采用企业级、干净且商业授权数据”的说法不一致。

IT之家此前报道，在宣传 MAI 系列模型时，微软号称“完全基于干净数据从零开始训练，未使用来自第三方模型的蒸馏数据”。

不过根据官方披露的 MAI 技术论文，这些模型并非只依赖商业授权数据，还部分包括 Common Crawl 在内的开放网络数据，这与微软此前对外强调的“企业级、干净且商业授权数据”表述存在明显落差。

从论文描述看，微软采用的是“公开可得数据”与“授权的人类生成数据”的混合方案，同时覆盖授权语料与互联网公开内容。

在网络数据获取方式上，微软称其使用自有爬虫，并遵守 Robots Exclusion Protocol（机器人排除协议，robots.txt）以及相关元标签和 HTML 控制项。

不过该媒体指出争议点在于，对于未屏蔽内容，默认视为可被抓取，内容保护责任实际上更多落到网站所有者身上，这种逻辑近似于“没有锁门就等于同意进入”。

上一篇：OpenAI 为所有 ChatGPT 个人用户开放锁定模式，启用后可降低数据泄露风险

下一篇：用什么AI暴露了你的阶层？没那么简单

返回列表

热文阅读

2 天前

豆包将推付费版，第三方称上月月活首次下滑

2 天前

浙江台州问界 M9 事故现场镜头画面曝光，大块金属部件曾顶起车身

2 天前

法拉利首款纯电车型 Luce 遭群嘲，马自达、日产也来玩梗调侃

2 天前

比亚迪方程豹钛 7 推送第五次 OTA 更新：新增全向行车记录仪（五视角）、IoT 生态扩展等

1 天前

Anthropic：高昂的计算成本是推动IPO的主因，呼吁全球暂缓前沿AI研发

2 天前

腾讯最强的牌，也是AI最大的锁

1 天前

连GitLab都开始裁程序员了

1 天前

突发！Anthropic呼吁全员停止AI研究

1 天前

他，雇AI卖房，多赚61万

2 天前

长安、小米、极氪密集调整，车企集体「不装了」

上一篇：OpenAI 为所有 ChatGPT 个人用户开放锁定模式，启用后可降低数据泄露风险

下一篇：用什么AI暴露了你的阶层？没那么简单

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们