Llama4被图灵奖得主曝作弊刷榜,Meta开源AI帝国一夜倾覆
文 | 新质动能,图灵作者|沛林,主曝作弊编辑|沐风

Llama 4 真的刷榜作弊刷榜了!
Meta 前首席科学家杨立昆(Yann LeCun)近日在采访中证实,开源团队为优化基准测试结果,帝国对不同评测使用了不同版本的夜倾模型," 结果的图灵确被篡改了一点 "。
另一位被裁的主曝作弊 FAIR 原技术总监田渊栋,则直指 Llama 4 的刷榜研发是 " 外行领导内行 "。
从 Llama 3 的开源 " 开源盟主 " 到 Llama 4 的口碑崩塌,不过一年时间。帝国这背后,夜倾是图灵 Meta 内部管理的混乱与技术路线的摇摆。
随着丑闻曝光与核心团队出走,主曝作弊扎克伯格正推动一场剧烈的刷榜转向:高薪挖人、换帅,并彻底放弃开源路线,转而打造闭源模型 "Avocado"。
然而,这款被寄予厚望的新作,却深陷 " 借鉴 " 争议——它被曝使用通义千问优化,并试图融合谷歌、OpenAI 等多方技术。
曾经的开源引领者,如今变为闭源的 " 集大成者 "。
2026 年,Meta 的 AI 命运,几乎全部压在了这个拼凑而成的 Avocado 上。如果它再失败,Meta 可能将在大模型的核心赛道上彻底掉队。
Llama 4 作弊了!
作为图灵奖得主、" 卷积神经网络之父 " 与 " 深度学习三巨头 " 之一,杨立昆于 2013 年受邀加入 Meta 担任首席科学家,并成立了大名鼎鼎的人工智能研究院(FAIR)。多年来,杨立昆一直是 Meta 前沿研究的技术引领者与精神领袖。
当年扎克伯格为了请他出山,甚至不惜答应他不用搬去加州、不辞去教职且研究成果必须公开三项条件。
杨立昆已于 2025 年年底离职。双方的分道扬镳,本质是因为对技术路线无法达成一致:杨立昆瞧不上大语言模型路线,信奉世界模型,但扎克伯格却一心扑在大语言模型上。
在近期的采访中,杨立昆直言不讳地指出,外界关于 Llama 4" 刷榜作弊 " 的指控并非空穴来风。为了在基准测试中维持体面的排名,Meta 的团队确实在测试结果上 " 美化 " 了不少。他提到,团队在不同的测试中甚至动用了不同的优化模型来专门刷分。
杨立昆痛批 Meta 内部对 LLM 上瘾过甚,尤其是那些新挖来的超级智能实验室成员。
他点名批评亚历山大王:年轻且缺乏经验。
虽然学得快,但压根不懂研究,不知道怎么做、也不懂如何和研究员们共处。
在他眼中,这个 28 岁的年轻人,就是个 young boy。
如果杨立昆离开是因为不认同大语言模型路线,那 FAIR 前研究科学家技术总监田渊栋连同其团队整体被裁掉,就显得更加戏剧性。
刚刚被裁掉时,田渊栋在社交媒体上无奈的表示:当初是被拉来给 Llama4 救火,结果项目真正的负责人没有被问责,我们团队却被解雇了。
1 月 4 日,田渊栋在社交媒体上对自己离开 Meta 这件事进一步做出说明:
" 其实我也想过在公司十年多了,总有一天要离开,总不见得老死在公司里吧。"
甚至表示很长一段时间里心里都是希望 " 公司快把我开了吧 "。
网友直呼,高级打工人吐槽起上班来,也没什么分别。
而对于 Llama 4 的失败,田渊栋在后来的采访中透露的内容,却显示出 Meta 内部更大的问题。而这些问题,早在 Llama 3 受到追捧的时期,就已经埋下种子。
从封神到幻灭
回顾 Llama 系列的迭代史,也曾有过辉煌。Llama 2 和 Llama 3 曾是 Meta 最值得骄傲的底牌。
2023 年和 2024 年的 Meta,凭借 " 免费又好用 " 的开源策略,在 AI 界成为受尊重的公司。
Llama 2 证明了开源模型可以与闭源巨头叫板,而 Llama 3 则将这种性能推到了巅峰,在多项指标上甚至能与 GPT-4 打得有来有回,成为众多创业者借鉴、使用的开源大模型。
那时的 Meta 工程师们外出参加会议,脊梁骨都是硬的,他们自豪于自己在做一个有意义的、能改变行业格局的项目。
然而,到了 Llama 4,故事急转直下,全面溃败。造成这一结局的核心原因,在于 Meta 高层对技术演进方向的战略误判。
根据 Meta 前技术员工爆料,从 Llama 3 末期开始,扎克伯格和 Meta 高层开始过度强调 " 技术产品化 ",他们急于将 AI 整合进 WhatsApp、Instagram 和 Facebook 的每一个角落。
在这种 " 产品优先 " 的激进指令下,Llama4 的研发工作由更擅长产品与工程的高层领导,团队将大量资源倾斜到了多模态和应用层面的适配,却严重忽视了 AI 最重要的底层能力——推理。
田渊栋对此直接吐槽为 " 让外行领导内行 "。
就在 Meta 埋头卷规模、卷应用的时候,外部世界发生了翻天覆地的变化。
OpenAI 推出了基于思维链的 o1 模型,彻底改变了推理游戏的规则;紧接着,来自中国的 DeepSeek 以震撼的 MOE 混合专家架构横空出世,不仅推理能力强悍,更以极低的成本撕碎了硅谷大厂引以为傲的成本壁垒。
管理层对底层技术理解的匮乏,直接导致了战略路线上极其离谱的 " 灯下黑 "。其实早在 ChatGPTo1 发布前,田渊栋的 FAIR 团队就在研究思维链。
然而,因为此前 FAIR 与产品组之间没有良性互动,且高层痴迷于 " 技术产品化 ",这些自研成果被彻底埋没。
DeepSeek 的突袭让 Meta 内部彻底乱了阵脚,扎克伯格在全员大会上虽然表面淡定,背地里却开始下达 " 死命令 ",要求不计代价追赶。并请来田渊栋带领的 FAIR 团队来 " 救火 "。
田渊栋收到这一请求时,距离 Llama 4 定下的发布时间只剩 2 个月。明眼人都看得出来,这就是个烫手山芋,此时接手,只能尽力,很难善了。
在犹豫是否接手这一项目时,田渊栋还画了一个表格。
顶: 7踩: 11289
<< 上一篇
下一篇 >>
网友留言(0 条)