发布日期

llama4 来了, 原生多模态大模型!

作者列表
  • avatar
    姓名
    Fast Smart Intelligence Blog
    Twitter

Read the English version:

Multimodal intelligence engine, llama4 is coming!

Meta 发布了 Llama4, 官方文档, 作为原生训练的多模态大模型, 架构上采用了MoE架构,目前发布了三个版本:

  • Llama 4 Scout
  • Llama 4 Maverick
  • Llama 4 Behemoth

核心技术创新

MoE架构突破算力天花板

首次引入混合专家系统(Mixture of Experts),在相同计算预算下实现比密集模型更高的质量表现。这一选择与国产新星DeepSeek V3不谋而合,MoE架构正在成为大模型演进的主流方向。

原生多模态新范式

预训练阶段即采用文本+图像+视频联合训练,视觉编码器基于改进版MetaCLIP,通过独立训练策略更好地适配LLM。但需注意当前仅支持视觉理解(如GPT-4级别的图像分析),暂不具备图像生成能力。

iRoPE颠覆位置编码

创新设计的交错注意力层无需传统位置嵌入,使Scout版本推理时支持惊人的10M token上下文窗口(相当于1.5万页文档),Maverick版本也突破1M大关,改写长文本处理规则。

多语言与数据生态

200+语言支持:包含100+高资源语言(每种>10亿token),多语言数据量较Llama 3暴增10倍

数据来源:整合Meta生态数据(包括Instagram/Facebook公开内容),但中文支持存疑

训练黑科技:

  • MetaP超参数自动优化技术

  • FP8混合精度训练

  • 动态梯度裁剪策略

商业化与开源争议

  • 新许可证条款:月活超7亿企业需单独申请使用许可,Meta保留最终裁量权

  • 生态定位:专注通用大模型赛道,在推理优化(对比DeepSeek R1)和图像生成(对比GPT-4o)存在短板

  • 部署挑战:Behemoth版本当前仅适合云端部署,中小企业的落地应用仍需等待蒸馏技术突破

原生多模态设计可能成为下一代大模型标配,相比OpenAI(o1/o3),DeepSeek R1 这些推理模型,Llama4 可能没有优势,整体上Llama 4是符合预期的,但是没有超过预期。