当前位置: 首页> 问答中心> AI 圈今年最大丑闻曝光!Llama 4 被揭训练作弊,实测惨遭滑铁卢,核心骨干愤然离职> 正文

AI 圈今年最大丑闻曝光!Llama 4 被揭训练作弊,实测惨遭滑铁卢,核心骨干愤然离职

```markdown Llama 4 发布翻车:从高光到低谷的AI事件 引言:Meta的新巨兽登场 昨日,Meta正式发布了其最新一代多模态模型Llama 4。这款号称拥有2万亿参数的...
  • 2025-04-13
  • 24

```markdown

Llama 4 发布翻车:从高光到低谷的AI事件

AI 圈今年最大丑闻曝光!Llama 4 被揭训练作弊,实测惨遭滑铁卢,核心骨干愤然离职

引言:Meta的新巨兽登场

昨日,Meta正式发布了其最新一代多模态模型Llama 4。这款号称拥有2万亿参数的模型,在发布之初便引起了广泛关注。官方宣称其为原生多模态专家混合模型(MOE),并在多项指标上超越了DeepSeek V3等竞争对手。甚至Meta CEO扎克伯格也亲自录制视频,庆祝这一里程碑式的“Llama 4 日”。然而,这一切的高调宣传却未能掩盖随后而来的批评声浪。

社区反应:从期待到失望

在本地部署大语言模型爱好者聚集的社区r/LocalLLaMA中,一篇题为《我对Llama 4 感到极度失望》的帖子迅速引发了热议。帖子作者直指Llama 4的实际表现与宣传严重不符,许多用户纷纷附和,称这是今年AI领域最大的“翻车”事件之一。部分忠实粉丝甚至以调侃的方式建议将社区名称改为“LocalGemma”,暗讽此次发布更像是一个迟来的愚人节玩笑。

技术评估:编码能力的短板

通过实际测试发现,Llama 4的表现远低于预期。Reddit用户karminski指出,Llama-4-Maverick(402B参数版本)在编码任务上的表现仅能勉强媲美Qwen-QwQ-32B,而Llama-4-Scout(109B参数版本)则与Grok-2或Ernie 4.5相当。根据最新的aider polyglot编码基准测试结果,Llama 4 Maverick的得分仅为16%,这一成绩在众多模型中排名垫底。该测试覆盖了包括C++、Go、Java、JavaScript、Python和Rust在内的六种主流编程语言,充分暴露了Llama 4在技术应用层面的不足。

总结:期望与现实的落差

尽管Llama 4在纸面上展现了强大的理论性能,但实际应用中的表现却令人大失所望。从社区的广泛批评到具体的技术评估,都表明这款模型并未达到文章作者所期望的高度。这次事件不仅反映了AI模型开发中的挑战,也为未来的研究提供了宝贵的教训。

```

Copyright © 2010-2025YangTaTa 简约CMS社区版 版权所有 All rights reserved.
鄂ICP备11007044号-13

鄂公网安备 42068302000328号