当前位置：首页> 问答中心> AI 圈今年最大丑闻曝光！Llama 4 被揭训练作弊，实测惨遭滑铁卢，核心骨干愤然离职> 正文

AI 圈今年最大丑闻曝光！Llama 4 被揭训练作弊，实测惨遭滑铁卢，核心骨干愤然离职

```markdown Llama 4 发布翻车：从高光到低谷的AI事件引言：Meta的新巨兽登场昨日，Meta正式发布了其最新一代多模态模型Llama 4。这款号称拥有2万亿参数的...

2025-04-13
24

```markdown

Llama 4 发布翻车：从高光到低谷的AI事件

AI 圈今年最大丑闻曝光！Llama 4 被揭训练作弊，实测惨遭滑铁卢，核心骨干愤然离职

引言：Meta的新巨兽登场

昨日，Meta正式发布了其最新一代多模态模型Llama 4。这款号称拥有2万亿参数的模型，在发布之初便引起了广泛关注。官方宣称其为原生多模态专家混合模型（MOE），并在多项指标上超越了DeepSeek V3等竞争对手。甚至Meta CEO扎克伯格也亲自录制视频，庆祝这一里程碑式的“Llama 4 日”。然而，这一切的高调宣传却未能掩盖随后而来的批评声浪。

社区反应：从期待到失望

在本地部署大语言模型爱好者聚集的社区r/LocalLLaMA中，一篇题为《我对Llama 4 感到极度失望》的帖子迅速引发了热议。帖子作者直指Llama 4的实际表现与宣传严重不符，许多用户纷纷附和，称这是今年AI领域最大的“翻车”事件之一。部分忠实粉丝甚至以调侃的方式建议将社区名称改为“LocalGemma”，暗讽此次发布更像是一个迟来的愚人节玩笑。

技术评估：编码能力的短板

通过实际测试发现，Llama 4的表现远低于预期。Reddit用户karminski指出，Llama-4-Maverick（402B参数版本）在编码任务上的表现仅能勉强媲美Qwen-QwQ-32B，而Llama-4-Scout（109B参数版本）则与Grok-2或Ernie 4.5相当。根据最新的aider polyglot编码基准测试结果，Llama 4 Maverick的得分仅为16%，这一成绩在众多模型中排名垫底。该测试覆盖了包括C++、Go、Java、JavaScript、Python和Rust在内的六种主流编程语言，充分暴露了Llama 4在技术应用层面的不足。

总结：期望与现实的落差

尽管Llama 4在纸面上展现了强大的理论性能，但实际应用中的表现却令人大失所望。从社区的广泛批评到具体的技术评估，都表明这款模型并未达到文章作者所期望的高度。这次事件不仅反映了AI模型开发中的挑战，也为未来的研究提供了宝贵的教训。

```