xAI发布Grok 4.1：速度、质量与情感智能全方位升级，幻觉率大幅降低 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

xAI发布Grok 4.1：速度、质量与情感智能全方位升级，幻觉率大幅降低

2025-11-18 / 阅读约6分钟

来源：36kr

xAI发布Grok 4.1，重点提升响应速度、事实准确性和对话体验。性能显著提升，幻觉率降低，事实准确性提高，在多个测试中表现优异，情绪理解和创意写作能力增强。

当地时间11月17日，xAI正式发布Grok 4.1。版本已面向grok.com、X平台以及iOS、Android应用的所有用户开放，包括免费用户，并在Auto模式中默认启用。

xAI创始人埃隆·马斯克（Elon Musk）称，用户将“明显感受到速度与质量上的提升”。与以往着重算力或规模的更新不同，Grok 4.1把重点放在三个直观但极具难度的方向：更快的响应、更高的事实准确性，以及更自然、更具个性的对话体验。

性能提升：更少幻觉、更准事实、更强风格控制

Grok4.1在信息查询的测试中表现突出。官方数据显示：Grok4.1的幻觉率从12.09%降到4.22%，减少近三倍；FActScore从9.89%降至2.97%，同样呈显著提升。在当前大型模型普遍存在事实不稳定问题的背景下，这是一次真正的结构性升级。

xAI表示，Grok4.1性能提升得益于强化学习基础设施与新的奖励模型体系：Grok 4.1使用“前沿推理模型”作为奖励模型，让模型能自主评估并快速迭代。这意味着训练不再过度依赖大规模人工标注，也让风格、语气与协作能力变得更可控。

Grok 4.1在静默测试中盲评偏好率达到64.78%

Grok 4.1在最近一轮静默测试（11月1日至14日）中，盲评偏好率达到64.78%，明显高于前代版本。

Grok 4.1在LMSYS Arena上的表现

Grok 4.1在国际盲测平台LMSYS Arena上的表现出现了跃升式变化。在最新一轮评测中，Grok 4.1的Thinking模式（代号quasarflux）获得1483 Elo（Elo评分体系，用于衡量模型在盲测对战中的相对实力），位居所有公开模型之首；它的非推理模式也达到1465 Elo，位列第二。这一成绩本身就足够罕见——它在不使用思维链的情况下，表现依旧超过许多其他模型在启用完整推理配置时的水平。

对比来看，前一代Grok 4的整体排名还在第33名。如今的4.1不仅在排名上跨越了一个梯度，更意味着其基础对话质量和综合能力已经稳步进入行业第一梯队。

Grok 4.1在EQ-Bench情感智能测试中表现出色

在其他关键基准上，Grok 4.1同样呈现出显著跨越。在EQ-Bench情感智能测试中，Grok 4.1取得1586 Elo，相比前一代提升超过100点。

在Creative Writing v3创意写作评测中同样出色

在Creative Writing v3创意写作评测中，成绩进一步跃升至 1722 Elo，较上一版本几乎拉开600点的差距。这些改进不仅反映在评分上，也体现在其更自然的叙述结构、更成熟的语言节奏以及更稳定的角色声音上。

在模型处理复杂输入的能力方面，Grok 4.1的上下文窗口也得到大幅扩展，最高可支持256,000 tokens，在Fast模式下甚至可扩充至200万。这意味着它能够更好地应对内容生产、长文档协作以及持续对话场景，减少上下文丢失，使交互体验更加连贯。

这些性能提升在具体示例中体现得尤为清晰。xAI提供的对比演示显示，Grok 4.1在情绪识别、语言风格调节与叙事创作上的表现明显更接近一个具备情感表达与个性特征的“对话者”。无论是安慰因宠物离世而悲伤的用户，还是从AI的视角写一篇“意识觉醒”的首篇X帖，模型都能呈现更细腻的情绪层次、更稳定的语气以及更具张力的故事结构，展现出前代版本难以达到的沉浸感和说服力。

示例 1：情绪理解能力