模型架构演进¶
从 2017 年 Transformer 诞生到如今的千亿参数大模型,LLM 的架构经历了从"理解语言"到"生成一切"的深刻演变。本页梳理各里程碑式模型的核心创新,帮助理解 LLM 技术是如何一步步走到今天的。
三大架构路线¶
Transformer 原始论文包含编码器和解码器两部分,后续研究沿着三条路线分别发展:
graph TD
A["Transformer<br>(2017)"] --> B["Encoder-Only<br>BERT 路线"]
A --> C["Decoder-Only<br>GPT 路线"]
A --> D["Encoder-Decoder<br>T5 路线"]
B --> B1["BERT → RoBERTa → ALBERT → DeBERTa"]
C --> C1["GPT-1 → GPT-2 → GPT-3 → ChatGPT → GPT-4"]
C --> C2["LLaMA → LLaMA 2 → LLaMA 3"]
C --> C3["Qwen → DeepSeek → ..."]
D --> D1["T5 → BART → mT5"]
style C fill:#e8f5e9
当前 LLM 的主流选择是 Decoder-Only 架构,以下重点围绕这条主线展开。
Encoder-Only:理解型模型¶
BERT(2018,Google)¶
Bidirectional Encoder Representations from Transformers
BERT 是第一个通过"预训练 + 微调"范式在多项 NLP 任务上取得巨大突破的模型。
核心创新:
- 双向上下文理解:不同于从左到右的 GPT,BERT 通过掩码语言模型(MLM)同时看到左右两边的上下文
- 预训练任务:MLM(随机遮住 15% 的词让模型猜)+ NSP(预测两个句子是否连续)
- 微调范式:预训练一个通用模型,再在具体任务上微调少量数据
| 规格 | BERT-Base | BERT-Large |
|---|---|---|
| 层数 | 12 | 24 |
| 隐藏维度 | 768 | 1024 |
| 注意力头数 | 12 | 16 |
| 参数量 | 110M | 340M |
BERT 的局限
BERT 擅长理解(分类、抽取、匹配),但不擅长生成。因为 MLM 训练时有 [MASK],推理时却没有,存在训练-推理不一致的问题。
后 BERT 时代的改进¶
| 模型 | 核心改进 |
|---|---|
| RoBERTa | 去掉 NSP 任务、更多数据、更长训练 |
| ALBERT | 参数共享 + 因式分解 Embedding,大幅减少参数 |
| DeBERTa | 解耦注意力机制(内容和位置分开计算) |
| ELECTRA | 用"判别器"替代 MLM(判断每个词是否被替换),训练效率更高 |
Decoder-Only:生成型模型(主流)¶
GPT-1(2018,OpenAI)¶
Generative Pre-trained Transformer
与 BERT 同期但走了完全不同的路线——从左到右的自回归生成。
核心思想: - 用因果语言模型(CLM)做预训练:预测下一个 Token - 证明了无监督预训练 + 有监督微调的有效性
| 规格 | GPT-1 |
|---|---|
| 层数 | 12 |
| 参数量 | 117M |
| 训练数据 | BookCorpus(约 5GB) |
GPT-2(2019,OpenAI)¶
核心突破:证明了"规模 + 数据 = 涌现能力"
- 参数量扩大到 1.5B(GPT-1 的 13 倍)
- 训练数据 WebText(40GB 高质量网页文本)
- Zero-shot 能力:无需微调,直接通过 Prompt 完成各种任务
GPT-2 论文标题
"Language Models are Unsupervised Multitask Learners"
语言模型是无监督的多任务学习者——只要训练"预测下一个词",它就自动学会了翻译、摘要、问答等多种任务。
GPT-3(2020,OpenAI)¶
核心突破:In-Context Learning(上下文学习)
| 规格 | GPT-3 |
|---|---|
| 参数量 | 175B(史无前例) |
| 训练数据 | 300B Token |
| 上下文窗口 | 2048 Token |
GPT-3 展示了一个惊人的能力:不用微调,只需在 Prompt 中给几个例子(Few-shot),模型就能学会新任务。这彻底改变了 NLP 的范式——从"训练专用模型"走向"一个模型做所有事"。
同时,GPT-3 相关研究催生了 Scaling Laws,揭示了模型性能与参数量、数据量的幂律关系。
InstructGPT / ChatGPT(2022,OpenAI)¶
核心突破:人类对齐(RLHF)
GPT-3 虽然强大,但经常"不听话"——回答跑题、输出有害内容、编造事实。InstructGPT 通过三阶段训练(SFT → 奖励模型 → PPO)解决了这些问题。
ChatGPT 基于 InstructGPT 的方法论,加上对话格式的微调,成为了引爆全球 AI 热潮的产品。
GPT-4(2023,OpenAI)¶
核心突破:多模态理解
- 支持图像和文本的混合输入
- 在各种专业考试中达到人类水平(律师考试前 10%)
- 具体架构未公开,外界推测为 MoE(混合专家) 架构
开源大模型¶
LLaMA 系列(Meta)¶
LLaMA 是开源 LLM 领域最具影响力的系列,开启了开源大模型的繁荣生态。
LLaMA 1(2023)¶
核心贡献:用更小的模型 + 更多的数据,追上更大的模型
受 Chinchilla Scaling Laws 启发,LLaMA 在相同尺寸下用远超常规的数据量训练:
| 模型 | 参数量 | 训练 Token |
|---|---|---|
| LLaMA-7B | 7B | 1T |
| LLaMA-13B | 13B | 1T |
| LLaMA-65B | 65B | 1.4T |
LLaMA-13B 在多项评测上超过了 GPT-3(175B),证明了"数据 > 参数"的理念。
架构改进(相比原始 Transformer):
| 改进 | 说明 |
|---|---|
| RMSNorm | 用 RMSNorm 替代 LayerNorm,去掉了均值中心化,更快 |
| Pre-Norm | 归一化层放在注意力/FFN 之前(而非之后),训练更稳定 |
| SwiGLU | 用 SwiGLU 替代 ReLU 作为 FFN 的激活函数,效果更好 |
| RoPE | 旋转位置编码,能更好地捕捉相对位置信息,支持长度外推 |
这些改进后来几乎成了所有开源 LLM 的"标配"。
LLaMA 2(2023)¶
| 改进 | 内容 |
|---|---|
| 上下文窗口 | 2048 → 4096 |
| 训练数据 | 1T → 2T Token |
| GQA | 34B/70B 采用分组查询注意力,推理更快 |
| RLHF | 首次在开源模型上大规模应用人类对齐 |
LLaMA 3(2024)¶
| 改进 | 内容 |
|---|---|
| 词汇表 | 32K → 128K(大幅提升中文/代码效率) |
| 训练数据 | 2T → 15T Token(远超 Chinchilla 最优比例) |
| 上下文窗口 | 4K → 8K(后续扩展到 128K) |
| 全模型 GQA | 所有尺寸均采用 GQA |
Qwen 系列(阿里)¶
阿里通义千问系列,在中文能力上表现突出:
| 版本 | 核心特点 |
|---|---|
| Qwen 1 | 注重中英双语,词汇表包含大量中文 Token |
| Qwen 1.5 | 对齐效果显著提升 |
| Qwen 2 | 多语言支持、长上下文(128K)、MoE 变体 |
| Qwen 2.5 | 模型矩阵丰富(0.5B~72B),编程/数学能力增强 |
DeepSeek 系列¶
DeepSeek 以极低成本训练出接近顶尖水平的模型,在业界引起巨大反响:
| 模型 | 核心创新 |
|---|---|
| DeepSeek-V2 | MLA(Multi-Head Latent Attention):将 KV 压缩到低秩潜空间,KV Cache 大幅缩减 |
| DeepSeek-V3 | MoE 架构 + 辅助损失无关的负载均衡策略 |
| DeepSeek-R1 | 推理模型:通过 GRPO 强化学习训练,具备长思维链推理能力 |
MoE:混合专家架构¶
MoE(Mixture of Experts) 是扩大模型参数量同时控制计算成本的关键技术。
核心思想¶
将 FFN 层替换为多个"专家"网络,每次推理时只激活其中少数几个:
graph LR
A["输入"] --> B["路由器<br>(Router/Gate)"]
B -->|"权重 0.6"| C1["专家 1 ✓"]
B -->|"权重 0.0"| C2["专家 2"]
B -->|"权重 0.4"| C3["专家 3 ✓"]
B -->|"权重 0.0"| C4["专家 4"]
C1 --> D["加权求和"]
C3 --> D
D --> E["输出"]
- 总参数量大(所有专家参数加起来),模型容量强
- 激活参数量小(每次只用 2 个专家),计算成本低
Mixtral 8x7B 的例子
- 总参数:约 47B(8 个 7B 大小的专家)
- 每次激活:2 个专家 ≈ 13B 参数
- 效果:接近 LLaMA-2-70B 的水平,但推理速度快得多
路由机制¶
路由器决定每个 Token 发送给哪些专家,这是 MoE 的关键设计:
| 路由方式 | 说明 |
|---|---|
| Top-K 路由 | 每个 Token 选得分最高的 K 个专家处理 |
| 专家容量限制 | 每个专家处理的 Token 数有上限,防止负载不均 |
| 辅助损失 | 在训练损失中加入负载均衡项,鼓励专家被均匀使用 |
关键架构技术总结¶
| 技术 | 解决的问题 | 采用的模型 |
|---|---|---|
| RoPE | 位置编码,支持长度外推 | LLaMA、Qwen、DeepSeek |
| GQA | 减少 KV Cache 显存 | LLaMA 2/3、Qwen 2 |
| MLA | 极致压缩 KV Cache | DeepSeek-V2/V3 |
| SwiGLU | 更好的 FFN 激活函数 | 几乎所有现代 LLM |
| RMSNorm | 更快的归一化 | 几乎所有现代 LLM |
| Pre-Norm | 训练更稳定 | 几乎所有现代 LLM |
| MoE | 扩大模型容量不增加计算 | Mixtral、DeepSeek-V3、GPT-4(推测) |
| Flash Attention | 加速注意力计算,减少显存 | 几乎所有现代训练/推理框架 |
发展脉络时间线¶
| 时间 | 模型 | 里程碑意义 |
|---|---|---|
| 2017.06 | Transformer | 注意力机制替代 RNN,并行计算 |
| 2018.06 | GPT-1 | 生成式预训练 + 微调范式 |
| 2018.10 | BERT | 双向预训练,NLU 全面突破 |
| 2019.02 | GPT-2 | 证明 Zero-shot 能力的涌现 |
| 2020.05 | GPT-3 | 175B 参数,In-Context Learning |
| 2022.03 | InstructGPT | RLHF 人类对齐技术 |
| 2022.11 | ChatGPT | 引爆全球 AI 热潮 |
| 2023.02 | LLaMA | 开源 LLM 生态起飞 |
| 2023.03 | GPT-4 | 多模态理解,专业领域达人类水平 |
| 2023.07 | LLaMA 2 | 首个大规模开源 RLHF 模型 |
| 2024.04 | LLaMA 3 | 15T Token 训练,开源追平闭源 |
| 2024.12 | DeepSeek-V3 | MoE + MLA,低成本高性能 |
| 2025.01 | DeepSeek-R1 | 开源推理模型,长思维链 |