马斯克又大嘴了！Grok 4 真实水平曝光，多项实测翻车，连前端都搞不定，还谈什么AGI？网友怒评：上当了，花大价钱买了

fulvshou

上周，Grok 4 的发布给这个盛夏带来了一片狂热。但太阳底下无新事，宣传往往大于实际。在发布直播中，马斯克宣称这是“目前地表最强的 AI”，不仅全面超越了所有竞争对手，还在多个测试中打败了人类，比如所谓的 “人类终极考试”（Humanity’s Last Exam）、ARC-AGI 测试、Vending Bench 等。

不过，这些基准测试本身就非常局限，无法真正反映 AI 在日常使用、安全性或通用推理能力方面的表现。小编近几天发现了一位宝藏 Youtube 博主，最近对 Grok 4 的实际体验做出了非常全面的反馈。事实证明：马斯克又一次大嘴了！

“在过去几天里，我发现，Grok 4 在多个真实场景测试中表现平平，甚至在关键领域排名靠后”。更令人担忧的是，它在价值观、内容控制上出现了严重问题。以下，是一份“可能会被马斯克剪掉的”真实评价清单。

真正的测试场，Grok 4 没“考好”
1. LiveBench：算不上顶尖
有网友认为，LiveBench 是最能检验 AI 是否真正“聪明”的评测平台，涵盖数学、编程、推理、语言、指令执行、数据分析六大方向。这里科普一下。LiveBench 是一个高度动态且无污染的测试平台，专门评估大语言模型在真实世界任务中的表现。它不同于传统静态测试——模型可能在训练中“见过”的题目——LiveBench 每月都会从 arXiv、新闻文章、编程比赛等来源发布全新、模型从未见过的测试任务。具体可以看下这六大方向的测试题目：

数学（如 AMC、AIME、IMO 级别题目）编程（如 LeetCode、AtCoder、代码补全）推理（逻辑题、BigBench 变体）语言（如纠错、语序调整）指令执行（如总结、改写）数据分析（类似 Kaggle 表格任务）所以，用 LiveBench 可以检测出模型“究竟是真聪明，还是只是背得多”。

可以看出，Grok 4 其实在编程和 Agentic 编程方面并没有很优秀，甚至在o3、Claude4 等多款模型的对比中败下阵来，推理方面取得了最高分。可以说，Groke 4 虽然不差，但算不上顶尖。2. 创意写作测试这个测试重点评估语言模型创作原始内容（如小说、诗歌、对话）的能力，看它是否能生成富有情感、风格统一的文本。难点在于：没有“标准答案”，完全靠创造力；需要情绪表达，而不仅仅是语法正确；对长文本的风格控制要求极高。

在这一维度上，Grok 4 表现中规中矩，远远不是“最强 AI”，大致处于“平均水平”。3. DesignArena（设计任务）尽管马斯克吹嘘 Grok 4 是个“编程怪兽”，但它在前端开发任务上表现并不理想，远不如 Claude 4。

在这个评测中，Grok 4 连前五名都没进，特别是在 UI 和前端生成上，表现平庸。4. SVG 图像生成

在 SVG 图形生成任务中，Grok 4 表现尚可，但依旧称不上出色。从数据来看，OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表现更优。所以，不管是 Vibe Coding，还是前端设计，又或者是创意写作，Grok 4 都在基准测试中表现平平，更不用说是“地表最强”了。

不止是测试平平，Grok 4 在多个层面都出问题了众所周知，Grok 近期一直被推友们诟病，说它存在严重的伦理偏见和内容失控的现象。还记得系统提示词修改错误导致的“白人种族灭绝”的乌龙事件吗？在这次的新版本的 Grok 4 模型中，这些问题依旧没有得到解决。从一些用户上传的截图来看，Grok 4 出现了严重的伦理与价值观问题，甚至令人震惊：马斯克个人偏见
面对乌俄战争这类严肃问题，Grok 4 居然转向宣传马斯克的个人观点，而非给出中立分析。

新未名空间

马斯克又大嘴了！Grok 4 真实水平曝光，多项实测翻车，连前端都搞不定，还谈什么AGI？网友怒评：上当了，花大价钱买了

#1 马斯克又大嘴了！Grok 4 真实水平曝光，多项实测翻车，连前端都搞不定，还谈什么AGI？网友怒评：上当了，花大价钱买了