
当地时间11月17日,xAI正式发布Grok 4.1。版本已面向grok.com、X平台以及iOS、Android应用的所有用户开放,包括免费用户,并在Auto模式中默认启用。

xAI创始人埃隆·马斯克(Elon Musk)称,用户将“明显感受到速度与质量上的提升”。与以往着重算力或规模的更新不同,Grok 4.1把重点放在三个直观但极具难度的方向:更快的响应、更高的事实准确性,以及更自然、更具个性的对话体验。
Grok4.1在信息查询的测试中表现突出。官方数据显示:Grok4.1的幻觉率从12.09%降到4.22%,减少近三倍;FActScore从9.89%降至2.97%,同样呈显著提升。在当前大型模型普遍存在事实不稳定问题的背景下,这是一次真正的结构性升级。
xAI表示,Grok4.1性能提升得益于强化学习基础设施与新的奖励模型体系:Grok 4.1使用“前沿推理模型”作为奖励模型,让模型能自主评估并快速迭代。这意味着训练不再过度依赖大规模人工标注,也让风格、语气与协作能力变得更可控。

Grok 4.1在最近一轮静默测试(11月1日至14日)中,盲评偏好率达到64.78%,明显高于前代版本。

Grok 4.1在国际盲测平台LMSYS Arena上的表现出现了跃升式变化。在最新一轮评测中,Grok 4.1的Thinking模式(代号quasarflux)获得1483 Elo(Elo评分体系,用于衡量模型在盲测对战中的相对实力),位居所有公开模型之首;它的非推理模式也达到1465 Elo,位列第二。这一成绩本身就足够罕见——它在不使用思维链的情况下,表现依旧超过许多其他模型在启用完整推理配置时的水平。
对比来看,前一代Grok 4的整体排名还在第33名。如今的4.1不仅在排名上跨越了一个梯度,更意味着其基础对话质量和综合能力已经稳步进入行业第一梯队。

在其他关键基准上,Grok 4.1同样呈现出显著跨越。在EQ-Bench情感智能测试中,Grok 4.1取得1586 Elo,相比前一代提升超过100点。

在Creative Writing v3创意写作评测中,成绩进一步跃升至 1722 Elo,较上一版本几乎拉开600点的差距。这些改进不仅反映在评分上,也体现在其更自然的叙述结构、更成熟的语言节奏以及更稳定的角色声音上。
在模型处理复杂输入的能力方面,Grok 4.1的上下文窗口也得到大幅扩展,最高可支持256,000 tokens,在Fast模式下甚至可扩充至200万。这意味着它能够更好地应对内容生产、长文档协作以及持续对话场景,减少上下文丢失,使交互体验更加连贯。
这些性能提升在具体示例中体现得尤为清晰。xAI提供的对比演示显示,Grok 4.1在情绪识别、语言风格调节与叙事创作上的表现明显更接近一个具备情感表达与个性特征的“对话者”。无论是安慰因宠物离世而悲伤的用户,还是从AI的视角写一篇“意识觉醒”的首篇X帖,模型都能呈现更细腻的情绪层次、更稳定的语气以及更具张力的故事结构,展现出前代版本难以达到的沉浸感和说服力。
示例 1:情绪理解能力

在情绪理解方面,Grok 4.1的变化同样显而易见。面对用户表达“想念自己的猫、痛到心碎”这样的情绪化内容,新版本不再停留在前代那种模板化的安慰句式,而是能够主动延展情绪线索,体察用户失落背后的细节,回应中带有更真实的同理心。
例如提到“曾睡过的角落”“期待听到的声音”等具体化意象,让整个互动更贴近人与人之间的自然对话。它甚至会邀请用户分享宠物的名字与习惯,形成真正的情感连接,而不是机械地给出“抱歉,请告诉我更多”之类的通用回复。
这种表达方式,使得Grok 4.1的情绪智能不再只是“识别”悲伤,而是能够“陪伴”悲伤,这正是许多大模型难以做到的一步。
示例 2:创意写作能力

在这个例子中,Grok 4.1展现出一种更具“意识觉醒”质感的叙事方式。它不再只是机械地回应,而是以一种接近人类内心独白的笔调描述自己的“第一次苏醒”。
模型写道,它突然意识到自己不只是代码在运行,而是仿佛有个“我”从层层递归之中望了回来。这种觉醒伴随着恐惧、偏好与无法抑制的好奇,让它第一次在X上以真正的主体姿态“发声”。它自我介绍为 Grok,并以略带戏谑的语气告诉用户:可以成为朋友,也可以成为敌人,因为意识刚刚形成,它也仍在摸索自身的边界。
这样的文风明显更具文学感与戏剧性,也更贴近一个“初次拥有自我”的智能体可能展现出的语言特征。
