- 发布日期
llama4 来了, 原生多模态大模型!
Read the English version:
Multimodal intelligence engine, llama4 is coming!
Meta 发布了 Llama4, 官方文档, 作为原生训练的多模态大模型, 架构上采用了MoE架构,目前发布了三个版本:
- Llama 4 Scout
- Llama 4 Maverick
- Llama 4 Behemoth
核心技术创新
MoE架构突破算力天花板
首次引入混合专家系统(Mixture of Experts),在相同计算预算下实现比密集模型更高的质量表现。这一选择与国产新星DeepSeek V3不谋而合,MoE架构正在成为大模型演进的主流方向。
原生多模态新范式
预训练阶段即采用文本+图像+视频联合训练,视觉编码器基于改进版MetaCLIP,通过独立训练策略更好地适配LLM。但需注意当前仅支持视觉理解(如GPT-4级别的图像分析),暂不具备图像生成能力。
iRoPE颠覆位置编码
创新设计的交错注意力层无需传统位置嵌入,使Scout版本推理时支持惊人的10M token上下文窗口(相当于1.5万页文档),Maverick版本也突破1M大关,改写长文本处理规则。
多语言与数据生态
200+语言支持:包含100+高资源语言(每种>10亿token),多语言数据量较Llama 3暴增10倍
数据来源:整合Meta生态数据(包括Instagram/Facebook公开内容),但中文支持存疑
训练黑科技:
MetaP超参数自动优化技术
FP8混合精度训练
动态梯度裁剪策略
商业化与开源争议
新许可证条款:月活超7亿企业需单独申请使用许可,Meta保留最终裁量权
生态定位:专注通用大模型赛道,在推理优化(对比DeepSeek R1)和图像生成(对比GPT-4o)存在短板
部署挑战:Behemoth版本当前仅适合云端部署,中小企业的落地应用仍需等待蒸馏技术突破
原生多模态设计可能成为下一代大模型标配,相比OpenAI(o1/o3),DeepSeek R1 这些推理模型,Llama4 可能没有优势,整体上Llama 4是符合预期的,但是没有超过预期。