马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
3 天前 / 阅读约2分钟
来源:凤凰网
尽管Grok 4在基准测试中取得惊人的成绩,但在网友实测中也有翻车的时候。

昨天,马斯克亮相 Grok 4 发布会,一脸骄傲地表示:Grok 现在所有学科都达到博士后水平,没有例外,甚至可以在今年内实现科学新发现。

这一下子激起全球网友的兴趣,即使 Grok 4 的价格不菲,不少网友还是自愿氪金去体验一把。

Grok 4 大战 o3

博主 @Alex Prompter 对比 Grok 4 和 OpenAI o3 进行了一系列测试。

原帖地址:https://x.com/alex_prompter/status/1943231978779877514

首先是物理模拟,让小球在六边形内弹跳,以此来测试 AI 是否真正理解重力、碰撞等因果规律和时空关系,同时也测试了模型的代码能力 。

他用相同的提示词对比了 Grok 4 和 o3 的生成效果。

提示词:Create a HTML, CSS, and javascript where a ball is inside a rotating hexagon. The ball is affected by Earth’s gravity and friction from the hexagon walls. The bouncing must appear realistic.(创建一个包含 HTML、CSS 和 JavaScript 的项目,实现一个在旋转六边形内部的球体,该球体受到地球引力和六边形壁摩擦力的影响,其反弹效果必须看起来逼真。 )