llama4 来了, 原生多模态大模型!

Read the English version:

Meta 发布了 Llama4, 官方文档, 作为原生训练的多模态大模型, 架构上采用了MoE架构，目前发布了三个版本:

核心技术创新

首次引入混合专家系统（Mixture of Experts），在相同计算预算下实现比密集模型更高的质量表现。这一选择与国产新星DeepSeek V3不谋而合，MoE架构正在成为大模型演进的主流方向。

预训练阶段即采用文本+图像+视频联合训练，视觉编码器基于改进版MetaCLIP，通过独立训练策略更好地适配LLM。但需注意当前仅支持视觉理解（如GPT-4级别的图像分析），暂不具备图像生成能力。

创新设计的交错注意力层无需传统位置嵌入，使Scout版本推理时支持惊人的10M token上下文窗口（相当于1.5万页文档），Maverick版本也突破1M大关，改写长文本处理规则。

200+语言支持：包含100+高资源语言（每种>10亿token），多语言数据量较Llama 3暴增10倍

数据来源：整合Meta生态数据（包括Instagram/Facebook公开内容），但中文支持存疑

训练黑科技：

原生多模态设计可能成为下一代大模型标配，相比OpenAI(o1/o3)，DeepSeek R1 这些推理模型，Llama4 可能没有优势，整体上Llama 4是符合预期的，但是没有超过预期。