模型架构演进¶

从 2017 年 Transformer 诞生到如今的千亿参数大模型，LLM 的架构经历了从"理解语言"到"生成一切"的深刻演变。本页梳理各里程碑式模型的核心创新，帮助理解 LLM 技术是如何一步步走到今天的。

三大架构路线¶

Transformer 原始论文包含编码器和解码器两部分，后续研究沿着三条路线分别发展：

graph TD
    A["Transformer<br>(2017)"] --> B["Encoder-Only<br>BERT 路线"]
    A --> C["Decoder-Only<br>GPT 路线"]
    A --> D["Encoder-Decoder<br>T5 路线"]
    B --> B1["BERT → RoBERTa → ALBERT → DeBERTa"]
    C --> C1["GPT-1 → GPT-2 → GPT-3 → ChatGPT → GPT-4"]
    C --> C2["LLaMA → LLaMA 2 → LLaMA 3"]
    C --> C3["Qwen → DeepSeek → ..."]
    D --> D1["T5 → BART → mT5"]
    style C fill:#e8f5e9

当前 LLM 的主流选择是 Decoder-Only 架构，以下重点围绕这条主线展开。

Encoder-Only：理解型模型¶

BERT（2018，Google）¶

Bidirectional Encoder Representations from Transformers

BERT 是第一个通过"预训练 + 微调"范式在多项 NLP 任务上取得巨大突破的模型。

核心创新：

双向上下文理解：不同于从左到右的 GPT，BERT 通过掩码语言模型（MLM）同时看到左右两边的上下文
预训练任务：MLM（随机遮住 15% 的词让模型猜）+ NSP（预测两个句子是否连续）
微调范式：预训练一个通用模型，再在具体任务上微调少量数据

规格	BERT-Base	BERT-Large
层数	12	24
隐藏维度	768	1024
注意力头数	12	16
参数量	110M	340M

BERT 的局限

BERT 擅长理解（分类、抽取、匹配），但不擅长生成。因为 MLM 训练时有 [MASK]，推理时却没有，存在训练-推理不一致的问题。

后 BERT 时代的改进¶

模型	核心改进
RoBERTa	去掉 NSP 任务、更多数据、更长训练
ALBERT	参数共享 + 因式分解 Embedding，大幅减少参数
DeBERTa	解耦注意力机制（内容和位置分开计算）
ELECTRA	用"判别器"替代 MLM（判断每个词是否被替换），训练效率更高

Decoder-Only：生成型模型（主流）¶

GPT-1（2018，OpenAI）¶

Generative Pre-trained Transformer

与 BERT 同期但走了完全不同的路线——从左到右的自回归生成。

核心思想： - 用因果语言模型（CLM）做预训练：预测下一个 Token - 证明了无监督预训练 + 有监督微调的有效性

规格	GPT-1
层数	12
参数量	117M
训练数据	BookCorpus（约 5GB）

GPT-2（2019，OpenAI）¶

核心突破：证明了"规模 + 数据 = 涌现能力"

参数量扩大到 1.5B（GPT-1 的 13 倍）
训练数据 WebText（40GB 高质量网页文本）
Zero-shot 能力：无需微调，直接通过 Prompt 完成各种任务

GPT-2 论文标题

"Language Models are Unsupervised Multitask Learners"
语言模型是无监督的多任务学习者——只要训练"预测下一个词"，它就自动学会了翻译、摘要、问答等多种任务。

GPT-3（2020，OpenAI）¶

核心突破：In-Context Learning（上下文学习）

规格	GPT-3
参数量	175B（史无前例）
训练数据	300B Token
上下文窗口	2048 Token

GPT-3 展示了一个惊人的能力：不用微调，只需在 Prompt 中给几个例子（Few-shot），模型就能学会新任务。这彻底改变了 NLP 的范式——从"训练专用模型"走向"一个模型做所有事"。

同时，GPT-3 相关研究催生了 Scaling Laws，揭示了模型性能与参数量、数据量的幂律关系。

InstructGPT / ChatGPT（2022，OpenAI）¶

核心突破：人类对齐（RLHF）

GPT-3 虽然强大，但经常"不听话"——回答跑题、输出有害内容、编造事实。InstructGPT 通过三阶段训练（SFT → 奖励模型 → PPO）解决了这些问题。

ChatGPT 基于 InstructGPT 的方法论，加上对话格式的微调，成为了引爆全球 AI 热潮的产品。

GPT-4（2023，OpenAI）¶

核心突破：多模态理解

支持图像和文本的混合输入
在各种专业考试中达到人类水平（律师考试前 10%）
具体架构未公开，外界推测为 MoE（混合专家） 架构

开源大模型¶

LLaMA 系列（Meta）¶

LLaMA 是开源 LLM 领域最具影响力的系列，开启了开源大模型的繁荣生态。

LLaMA 1（2023）¶

核心贡献：用更小的模型 + 更多的数据，追上更大的模型

受 Chinchilla Scaling Laws 启发，LLaMA 在相同尺寸下用远超常规的数据量训练：

模型	参数量	训练 Token
LLaMA-7B	7B	1T
LLaMA-13B	13B	1T
LLaMA-65B	65B	1.4T

LLaMA-13B 在多项评测上超过了 GPT-3（175B），证明了"数据 > 参数"的理念。

架构改进（相比原始 Transformer）：

改进	说明
RMSNorm	用 RMSNorm 替代 LayerNorm，去掉了均值中心化，更快
Pre-Norm	归一化层放在注意力/FFN 之前（而非之后），训练更稳定
SwiGLU	用 SwiGLU 替代 ReLU 作为 FFN 的激活函数，效果更好
RoPE	旋转位置编码，能更好地捕捉相对位置信息，支持长度外推

这些改进后来几乎成了所有开源 LLM 的"标配"。

LLaMA 2（2023）¶

改进	内容
上下文窗口	2048 → 4096
训练数据	1T → 2T Token
GQA	34B/70B 采用分组查询注意力，推理更快
RLHF	首次在开源模型上大规模应用人类对齐

LLaMA 3（2024）¶

改进	内容
词汇表	32K → 128K（大幅提升中文/代码效率）
训练数据	2T → 15T Token（远超 Chinchilla 最优比例）
上下文窗口	4K → 8K（后续扩展到 128K）
全模型 GQA	所有尺寸均采用 GQA

Qwen 系列（阿里）¶

阿里通义千问系列，在中文能力上表现突出：

版本	核心特点
Qwen 1	注重中英双语，词汇表包含大量中文 Token
Qwen 1.5	对齐效果显著提升
Qwen 2	多语言支持、长上下文（128K）、MoE 变体
Qwen 2.5	模型矩阵丰富（0.5B~72B），编程/数学能力增强

DeepSeek 系列¶

DeepSeek 以极低成本训练出接近顶尖水平的模型，在业界引起巨大反响：

模型	核心创新
DeepSeek-V2	MLA（Multi-Head Latent Attention）：将 KV 压缩到低秩潜空间，KV Cache 大幅缩减
DeepSeek-V3	MoE 架构 + 辅助损失无关的负载均衡策略
DeepSeek-R1	推理模型：通过 GRPO 强化学习训练，具备长思维链推理能力

MoE：混合专家架构¶

MoE（Mixture of Experts） 是扩大模型参数量同时控制计算成本的关键技术。

核心思想¶

将 FFN 层替换为多个"专家"网络，每次推理时只激活其中少数几个：

graph LR
    A["输入"] --> B["路由器<br>（Router/Gate）"]
    B -->|"权重 0.6"| C1["专家 1 ✓"]
    B -->|"权重 0.0"| C2["专家 2"]
    B -->|"权重 0.4"| C3["专家 3 ✓"]
    B -->|"权重 0.0"| C4["专家 4"]
    C1 --> D["加权求和"]
    C3 --> D
    D --> E["输出"]

总参数量大（所有专家参数加起来），模型容量强
激活参数量小（每次只用 2 个专家），计算成本低

Mixtral 8x7B 的例子

总参数：约 47B（8 个 7B 大小的专家）
每次激活：2 个专家 ≈ 13B 参数
效果：接近 LLaMA-2-70B 的水平，但推理速度快得多

路由机制¶

路由器决定每个 Token 发送给哪些专家，这是 MoE 的关键设计：

路由方式	说明
Top-K 路由	每个 Token 选得分最高的 K 个专家处理
专家容量限制	每个专家处理的 Token 数有上限，防止负载不均
辅助损失	在训练损失中加入负载均衡项，鼓励专家被均匀使用

关键架构技术总结¶

技术	解决的问题	采用的模型
RoPE	位置编码，支持长度外推	LLaMA、Qwen、DeepSeek
GQA	减少 KV Cache 显存	LLaMA 2/3、Qwen 2
MLA	极致压缩 KV Cache	DeepSeek-V2/V3
SwiGLU	更好的 FFN 激活函数	几乎所有现代 LLM
RMSNorm	更快的归一化	几乎所有现代 LLM
Pre-Norm	训练更稳定	几乎所有现代 LLM
MoE	扩大模型容量不增加计算	Mixtral、DeepSeek-V3、GPT-4（推测）
Flash Attention	加速注意力计算，减少显存	几乎所有现代训练/推理框架

发展脉络时间线¶

时间	模型	里程碑意义
2017.06	Transformer	注意力机制替代 RNN，并行计算
2018.06	GPT-1	生成式预训练 + 微调范式
2018.10	BERT	双向预训练，NLU 全面突破
2019.02	GPT-2	证明 Zero-shot 能力的涌现
2020.05	GPT-3	175B 参数，In-Context Learning
2022.03	InstructGPT	RLHF 人类对齐技术
2022.11	ChatGPT	引爆全球 AI 热潮
2023.02	LLaMA	开源 LLM 生态起飞
2023.03	GPT-4	多模态理解，专业领域达人类水平
2023.07	LLaMA 2	首个大规模开源 RLHF 模型
2024.04	LLaMA 3	15T Token 训练，开源追平闭源
2024.12	DeepSeek-V3	MoE + MLA，低成本高性能
2025.01	DeepSeek-R1	开源推理模型，长思维链