中国电子行业:LLAMA 4:声势浩大的发布 但模型表现差强人意
2025 年4 月6 日,Meta 发布了其最新的开源AI 模型系列——Llama 4。目前该系列包含两个模型:Llama4 Scout 和Llama 4 Maverick。尽管发布时声势浩大,但Llama 4 在实际应用中表现不佳,暴露出性能和开源性方面的不足。
点评:
Llama 4 Scout:这是一个轻量级模型,能够在单个Nvidia H100 GPU 上运行,支持最多1000 万个tokens 的上下文窗口。其在多个基准测试中优于Google 的Gemma 3 和Mistral 3.1 等模型。
Llama 4 Maverick:这是一个更大型的模型,拥有4000 亿总参数,其中活跃参数为170 亿,采用128 专家的Mixture-of-Experts(MoE)架构。在推理和编程任务中表现接近OpenAI 的GPT-4o 和DeepSeek-V3,同时活跃参数更少。
值得注意的是:
Llama 4 在核心能力上存在短板,其智能得分落后于顶级模型。独立评估机构Artificial Analysis 指出,Llama4 在通用推理、科研任务和代码能力上都不及顶级模型。Maverick 平台上的智能指数得分仅为49,远低于Gemini 2.5 Pro 的68 分和DeepSeek R1 的66 分。
为“跑分”优化,但不适用于现实场景。有传言称,Llama 4 在后训练阶段为了提升基准测试成绩进行了特别调校,这可能削弱了其在真实应用中的能力。有用户报告称其在“20 个弹跳球”等常规测试中表现不佳,显示其不适合高要求的编程任务。
DeepSeek R1 以MIT 协议树立更高标准:DeepSeek R1 允许在几乎无任何限制下自由使用、修改、再分发及商业化,而Llama 4 则附带更为严格的使用限制——例如对活跃用户数超过7 亿的企业有限制——这不符合主要的开源标准。相较之下,Llama 4 的开源程度明显不及DeepSeek R1。
我们认为此次Llama 4 的发布并不成功:其代码能力依旧薄弱,同时内部信号显示出创新瓶颈与组织效率问题。此次发布可能是受DeepSeek V3 带来的竞争压力所驱动的被动回应。如果该模型无法在现实任务中兑现能力,Meta 在开源社区的地位将受到挑战。我们认为,Llama 4 已不再属于开源模型的第一梯队,而DeepSeek 仍保持领先。
风险提示: 1) AI 应用需求不及预期; 2) 开源模型之间的竞争加剧; 3) AI 算力资源紧缺。